dev-sohee 님의 블로그

JVM의 청소부, GC(Garbage Collector) 본문

java

JVM의 청소부, GC(Garbage Collector)

dev-sohee 2024. 7. 13. 13:03

malloc()과 free()는 런타임 도중에 사용할 메모리 공간 할당과 해제를 위한 즉, 동적 메모리 사용을 위한 C언어의 대표적인 함수들입니다.  C언어로 개발을 해보신 분들이라면 이 함수들을 봤을 때 인상을 찡그리실 수도 있습니다.

malloc()을 사용하는 순간 시스템은 사용하지 않는 메모리를 할당하고 이에 대한 포인터를 리턴합니다. 이것은 프로그램의 실행 지체를 유발하기 때문에 조심해서 사용해야 하는 아주 까다로운 녀석입니다. 그리고 malloc()으로 메모리를 할당한 후에 free()로 해제를 안하면 메모리 누수, 성능 저하의 문제가 발생할 수 있으므로 free()도 꼭 잊지말고 해줘야 합니다.

 

하지만 자바에서는 이런 고민을 할 필요가 없습니다. 자바의 가비지 컬렉터가 알아서 해주니까요.

이 글에서는 자바의 GC가 무엇인지, 어떻게 작동하는지에 대해 알아보겠습니다.

출처_https://tecoble.techcourse.co.kr/post/2021-08-30-jvm-gc/

* GC(Garbage Collection)
* GC의 종류
* GC의 동작방식

# Garbage Collection

개발을 하다보면 필요없는 메모리(Garbage)가 발생하게 되는데 이때 개발자가 free()처럼 굳이 메모리 해제를 해주지 않아도 JVM의 Garbage Collector가 주기적으로 메모리를 검사하여 청소해주고 이것을 GC(Garbage Collection)라고 합니다.

 

# GC의 종류

JVM의 Heap영역은 객체의 생존 기간에 따라 물리적인 heap 영역으로 나누게 되었고 Young, Old 두 가지 영역이 있습니다.

출처_https://mangkyu.tistory.com

 

Young 영역

- 새롭게 생성된 객체가 할당(Allocation)되는 영역

- 대부분의 객체가 금방 Unreachable 상태(프로그램의 어느 부분에서도 더 이상 참조되지 않는 객체)가 되기 때문에 많은 객체가 Young 영역에 생성되었다가 사라진다.

- Young 영역에 대한 GC를 "Minor GC"라고 부른다.

Old 영역

- Young영역에서 Reachable 상태를 유지하여 살아남은 객체가 복사되는 영역
- Young 영역보다 크게 할당되며, 영역의 크기가 큰 만큼 가비지는 적게 발생한다.

(Old 영역이 Young 영역보다 크게 할당되는 이유는 Young 영역의 수명이 짧은 객체들은 큰 공간을 필요로 하지 않으며 큰 객체들은 Young 영역이 아니라 바로 Old 영역에 할당되기 때문이다.)
- Old 영역에 대한 GC를 "Major GC"라고 부른다.

 

GC의 종류에는 Serial GC, Parallel GC, CMS GC, G1GC가 있는데 밑에서 GC의 동작방식에 대해 먼저 설명한 뒤 다시 알아보겠습니다.

 

# GC의 동작방식

Young 영역과 Old 영역은 서로 다른 메모리 구조로 되어 있기 때문에, 세부적인 동작 방식은 다릅니다. 

하지만 기본적으로 가비지 컬렉션이 실행된다고 하면 다음의 2가지 공통적인 단계를 따릅니다.

1. Stop The World

: Stop The World는 가비지 컬렉션을 실행하기 위해 JVM이 애플리케이션의 실행을 멈추는 작업입니다.

GC가 실행될 때는 GC를 실행하는 쓰레드를 제외한 모든 쓰레드들의 작업이 중단되고, GC가 완료되면 작업이 재개됩니다. 

2. Mark and Sweep

: Stop The World를 통해 모든 작업을 중단시키면, GC는 스택의 모든 변수 또는 Reachable 객체를 스캔하면서 각각이 어떤 객체를 참고하고 있는지를 탐색합니다. 그리고 사용되고 있는 메모리를 식별하는데, 이러한 과정을 "Mark"라고 합니다. 이후에 Mark가 되지 않은 객체들을 메모리에서 제거하는데, 이러한 과정을 "Sweep"라고 합니다.

 

Minor GC의 동작방식

Minor GC를 동작 방식을 설명하기에 앞서 Young 영역의 구조에 대해 알아보겠습니다.

Young 영역은 1개의 Eden 영역과 2개의 Survivor 영역, 총 3가지로 나뉘어집니다.
- Eden 영역: 새로 생성된 객체가 할당(Allocation)되는 영역
- Survivor 영역: 최소 1번의 GC 이상 살아남은 객체가 존재하는 영역
1) 객체가 새롭게 생성되면 Young 영역 중에서도 Eden 영역에 할당(Allocation)이 됩니다.

2) 그리고 Eden 영역이 꽉 차면 Minor GC가 발생하는데, 사용되지 않는 메모리는 해제되고 사용 중인 객체는 Survivor 영역으로 옮겨집니다.

3) 1~2번의 과정이 반복되다가 Survivor 영역이 가득 차게 되면 Survivor 영역의 살아남은 객체를 다른 Survivor 영역으로 이동시킵니다.(2개의 Survivor 영역 중 1개는 반드시 빈 상태로 유지됩니다.)
4) 이러한 과정을 반복하여 계속해서 살아남은 객체는 Old 영역으로 이동(Promotion)됩니다.

이때 Old 영역으로 이동하는 기준은 JVM에서 GC를 최적화하기 위해 설정되고 기준은 다음과 같습니다.

  • Survivor Count:
    • 객체가 Young 영역의 Survivor 영역에서 살아남은 횟수에 따라 결정됩니다. 각 객체는 생존할 때마다 age(나이) 필드가 증가합니다.
    • 특정 임계값(threshold)에 도달하면 객체는 Old 영역으로 이동됩니다. 이 임계값은 JVM의 힙 설정에 따라 다를 수 있지만, 기본적으로는 15번의 생존입니다.
  • Survivor 영역의 용량:
    • Survivor 영역이 가득 차면, 살아남은 객체를 더 이상 Survivor 영역에 저장할 수 없게 되므로 일부 객체는 강제로 Old 영역으로 이동됩니다. 이를 "promotion"이라고 합니다.
  • Promotion 실패:
    • Old 영역에 충분한 공간이 없어서 Survivor 영역의 객체를 Old 영역으로 이동할 수 없는 경우, Full GC가 발생하여 공간을 확보하려고 시도합니다.

 

Major GC의 동작방식

Major GC는 객체들이 계속 Promotion되어 Old 영역의 메모리가 부족해지면 발생하게 됩니다.

Young 영역은 일반적으로 Old 영역보다 크키가 작기 때문에

Minor GC는 보통 0.5초에서 1초 사이에 끝나고 애플리케이션에 크게 영향을 주지 않습니다 .

하지만 Old 영역은 Young 영역보다 크기 때문에 Major GC는 일반적으로 Minor GC보다 10배 이상의 시간을 소요합니다. 

 

# GC 종류 4가지

1. Serial GC

- 동작 방식: 단일 스레드를 사용하여 메모리를 청소함. 모든 애플리케이션 스레드를 중지시키고(Stop The World), 한 번에 하나의 GC 작업을 수행한다.

- 장점: 구현이 간단하고, 작은 메모리 및 단일 CPU 환경에 적합하다.

- 단점: 멀티코어 프로세서 환경에서는 비효율적이며, 긴 GC 시간이 발생할 수 있다.

- 사용 환경: 클라이언트 애플리케이션이나 단일 스레드 애플리케이션에 적합하다.

- 옵션: '-XX:+UseSerialGC'

**옵션이란?: JVM을 시작할 때 특정 GC를 사용하도록 명시하기 위해 Java 명령어에 추가하는 설정

 

2. Parallel GC

- 동작 방식: 여러 개의 스레드를 사용하여 동시에 메모리를 청소함. 멀티코어 시스템에서 성능을 향상시키기 위해 설계되었다.

- 장점: GC 작업을 여러 스레드로 병렬 처리하여, 전체적인 어플리케이션 처리량을 증가시킨다.

- 단점: 응답 시간이 중요한 애플리케이션에는 적합하지 않다.

- 사용 환경: 서버 애플리케이션 및 배치 처리 시스템에서 효율적이다.

- 옵션: '-XX:+UseParallelGC'

 

3. CMS(Concurrent Mark Sweep) GC

- 동작 방식: 대부분의 GC 작업을 애플리케이션 스레드와 병행하여 수행함. Marking 단계와 Sweeping 단계에서 애플리케이션 스레드를 정지시키지 않기 위해 병행 처리한다.

- 장점: 낮은 레이턴시를 제공하여, 애플리케이션의 응답 시간을 최소화한다.

- 단점: 메모리 조각화가 발생할 수 있으며, CPU 리소스를 더 많이 사용함. Full GC가 발생할 경우 멈춤 시간이 길어질 수 있다.

- 사용 환경: 응답 시간이 중요한 웹 서버나 애플리케이션 서버에 적합하다.

- 옵션: '-XX:+UseConcMarkSweepGC'

**레이턴시(latency): 요청이 시스템에 입력된 시점부터 그 요청에 대한 응답이 사용자에게 전달되기까지 걸리는 시간. 즉, 시스템이 작업을 처리하는 데 걸리는 지연 시간

 

4. G1GC(Garbage First GC)

- 동작 방식: 힙 메모리를 여러 개의 영역으로 나누고, 각 영역을 독립적으로 GC함. 주로 병행하여 작업하며, 전체적인 애플리케이션 성능을 유지하면서 GC를 수행한다.

- 장점: 예측 가능한 멈춤 시간을 제공하며, 메모리 조각화를 줄이는 데 효과적이다. 대용량 힙에서 좋은 성능을 발휘한다.

- 단점: 설정이 다소 복잡할 수 있으며, G1 GC 튜닝이 필요할 수 있다.

- 사용 환경: 대규모 서버 애플리케이션이나 대용량 데이터를 처리하는 시스템에 적합다.

- 옵션: '-XX:+UseG1GC'

 

GC가 개발자의 수고를 덜어주는 것은 맞지만 장점만 있는 것은 아닙니다. GC가 메모리와 객체를 정리할 때 일시적인 지연이 발생할 수도 있고 GC가 실행될 때, 메모리 파편화가 발생할 수 있습니다. 이는 연속적인 메모리 공간을 찾기 어려워지거나, 메모리 할당 및 해제가 느려지는 문제를 야기할 수 있습니다. 또한 GC를 구현하고 최적화하는 것은 비교적 복잡한 작업일 수 있습니다. 특히 대규모 시스템에서는 GC의 효율성과 성능을 유지하기 위한 연구와 개발이 필요할 수 있습니다. 

대부분의 개발 툴이 그렇듯 GC도 마찬가지로 장단점을 모두 갖고 있습니다. GC의 종류와 각각의 장단점을 정확히 알고 깊이 이해했을 때 GC의 효용성을 극대화할 수 있을 것 같습니다.