Nâng CaoKafka iconKafka

Monitoring và performance tuning Kafka: các metrics quan trọng và cách tối ưu throughput/latency?

Metrics quan trọng cần monitor: UnderReplicatedPartitions (>0 là dấu hiệu vấn đề replication), OfflinePartitionsCount (cần alert ngay khi >0), BytesInPerSec/BytesOutPerSec (throughput), RequestHandlerAvgIdlePercent (<0.2 là broker overloaded), consumer lag (records-lag-max) để detect consumer chậm.

  • Tối ưu throughput producer: tăng batch.size (16KB→128KB), thêm linger.ms (0→20ms), bật compression.type=lz4 giảm network I/O.
  • Tối ưu throughput consumer: tăng fetch.min.bytesfetch.max.wait.ms để fetch theo batch lớn, tăng max.poll.records.
  • Tối ưu broker: tăng số thread I/O (num.io.threads), dùng dedicated disk cho Kafka log (tránh share với OS), đặt log.dirs trên multiple disk để parallel I/O.
  • Dùng Kafka Exporter + Prometheus + Grafana cho observability stack.

Xem toàn bộ Kafka cùng filter theo level & chủ đề con.

Mở danh sách Kafka