Metrics quan trọng cần monitor: UnderReplicatedPartitions (>0 là dấu hiệu vấn đề replication), OfflinePartitionsCount (cần alert ngay khi >0), BytesInPerSec/BytesOutPerSec (throughput), RequestHandlerAvgIdlePercent (<0.2 là broker overloaded), consumer lag (records-lag-max) để detect consumer chậm.
- Tối ưu throughput producer: tăng
batch.size(16KB→128KB), thêmlinger.ms(0→20ms), bậtcompression.type=lz4giảm network I/O. - Tối ưu throughput consumer: tăng
fetch.min.bytesvàfetch.max.wait.msđể fetch theo batch lớn, tăngmax.poll.records. - Tối ưu broker: tăng số thread I/O (
num.io.threads), dùng dedicated disk cho Kafka log (tránh share với OS), đặtlog.dirstrên multiple disk để parallel I/O. - Dùng Kafka Exporter + Prometheus + Grafana cho observability stack.