2 분 소요

Skewed

Skewed라는 용어는 불균형이나 치우친 상태를 의미합니다. Kafka에서 Skewed 상태는 특정 브로커에 데이터나 파티션이 지나치게 많이 몰려 있는 상태를 설명할 때 자주 사용됩니다. 이것은 리소스 사용량에 불균형을 초래할 수 있으며, 다음과 같은 요소에서 문제가 발생할 수 있습니다.

Kafka에서 Brokers Skewed의 주요 원인
파티션 리더 할당 불균형:

Kafka의 토픽은 여러 개의 파티션(partition)으로 나뉘고, 각 파티션은 하나의 리더(leader)를 가집니다. 리더는 데이터를 읽고 쓰는 주된 역할을 하므로, 특정 브로커에 리더 파티션이 집중되면 해당 브로커는 다른 브로커보다 더 많은 부하를 받습니다. 예를 들어, Kafka 클러스터에 3개의 브로커가 있고, 10개의 파티션이 있는 토픽이 있다고 가정해봅시다. 이때, 3개의 브로커 중 1개 브로커에 리더 파티션이 7개 할당되고 나머지 2개 브로커에는 각각 1개와 2개 할당된다면, 리더가 몰린 브로커는 더 많은 요청을 처리해야 하므로 부하가 높아지게 됩니다.

파티션 복제본의 불균형:

Kafka는 파티션의 리플리케이션(복제본)을 유지합니다. 복제본이 특정 브로커에 지나치게 몰려 있으면, 이 브로커는 더 많은 복제 트래픽을 처리해야 하므로 부하가 쏠리게 됩니다. 예를 들어, 모든 파티션의 복제본이 일부 브로커에만 집중되어 있다면, 해당 브로커는 지속적으로 많은 양의 데이터 동기화 작업을 처리해야 합니다.

트래픽 불균형:

어떤 토픽의 특정 파티션으로 트래픽이 집중될 경우, 그 파티션의 리더가 위치한 브로커에 트래픽이 몰리게 됩니다. 이로 인해 트래픽 부하가 특정 브로커에만 집중되고, 다른 브로커는 상대적으로 한가한 상태가 될 수 있습니다.
이러한 상태를 Skewed 트래픽이라 부르며, 특정 브로커만 과도한 요청을 처리하게 되어 성능 저하를 유발할 수 있습니다.
Brokers Skewed가 Kafka 클러스터에 미치는 영향

리소스 불균형:

CPU, 메모리, 디스크 I/O 같은 시스템 리소스가 특정 브로커에서 과도하게 사용될 수 있습니다. 이는 해당 브로커가 과부하 상태가 되거나 오프셋 지연(lag)이 발생하는 문제를 일으킬 수 있습니다.

성능 저하:

부하가 집중된 브로커는 데이터 처리 속도가 느려지거나, 복제 지연이 발생할 수 있습니다. 이는 전체 Kafka 클러스터의 성능을 저하시킬 수 있습니다.

가용성 문제:

만약 특정 브로커에 모든 리더 파티션이 집중된 상황에서 그 브로커가 장애를 일으키면, 그 브로커에 의존하던 파티션들이 한꺼번에 영향을 받을 수 있습니다. 즉, 특정 브로커에 문제가 생기면 클러스터 전체의 가용성에 심각한 영향을 미칩니다.
Kafka에서 Skewed 상태를 해결하는 방법

파티션 리밸런싱(재분배):

Kafka의 파티션 리밸런싱을 통해 파티션 리더와 복제본을 클러스터 내의 브로커에 고르게 분산시킬 수 있습니다. 이를 통해 부하를 균등하게 나누고 성능을 최적화할 수 있습니다. Kafka에서는 kafka-reassign-partitions.sh 스크립트를 사용하여 파티션을 다른 브로커로 이동시키는 리밸런싱 작업을 할 수 있습니다.

파티션 및 복제본 수 조정:

파티션 수나 복제본 수를 조정하여 더 많은 브로커에 부하를 분산할 수 있습니다. 특히 파티션 수를 늘리면 클러스터의 부하를 더 세밀하게 나눌 수 있습니다.
복제본을 여러 브로커에 균등하게 할당하면, 리더가 몰리지 않도록 균형을 맞출 수 있습니다.

모니터링 및 자동화 도구 사용:

Kafka 클러스터의 상태를 모니터링하는 도구(Kafka Manager, Prometheus, Grafana 등)를 사용하여 리소스 사용량과 파티션 상태를 실시간으로 확인하고, Skewed 상태가 발생하면 즉시 대응할 수 있습니다. 자동 리밸런싱 기능을 사용하여 Kafka가 자동으로 부하를 분산하도록 설정할 수도 있습니다.

요약 Brokers Skewed는 Kafka 클러스터에서 파티션이나 리플리케이션이 브로커 간에 고르게 분산되지 않아 특정 브로커에 부하가 집중되는 상황을 의미합니다.
이는 리소스 불균형, 성능 저하, 가용성 문제를 일으킬 수 있으며, 클러스터의 효율적인 운영을 저해할 수 있습니다.
이를 해결하기 위해서는 파티션 리밸런싱, 파티션 및 복제본 수 조정, 모니터링 도구 사용 등을 통해 부하를 고르게 분산하는 것이 필요합니다.
Brokers Skewed 상태가 해결되지 않으면 Kafka 클러스터의 안정성에 큰 영향을 미칠 수 있으므로, 주기적인 모니터링과 관리가 중요합니다

댓글남기기