LLM-as-a-judge là gì? Ưu nhược điểm?

Question

Luyện Phỏng Vấn IT · Accepted Answer

LLM-as-a-judge là kỹ thuật dùng LLM mạnh (GPT-4, Claude 3.5) làm "trọng tài" chấm điểm output của một LLM khác trên các tiêu chí như correctness, helpfulness, relevance, safety. Thay thế hoặc bổ sung cho human eval — scale được và rẻ hơn. Cách dùng: 1. Pairwise comparison: judge so 2 response A và B, chọn cái tốt hơn. Tốt cho so sánh A/B test giữa 2 prompt/model. 2. Single-answer grading: judge chấm 1 response theo rubric (thang 1-5) trên từng criteria. Chi tiết hơn. 3. Reference-based: cho judge biết ground truth, chấm response so với truth (faithfulness, correctness). 4. Reference-free: không có ground truth, judge dùng tiêu chí chung (helpfulness, coherence). Ưu điểm: - Scale: đánh giá 10K-1M response mà không cần human. - Rẻ: $0.001-0.01/eval so với human $1-5. - Nhanh: giờ thay vì tuần. - Consistent: ít fatigue bias hơn human. - Flexible: rubric mới không cần re-train classifier. Nhược điểm và bias cần biết: - Self-preference bias — model thường thích output của chính nó / same family. Workaround: dùng judge khác family với đánh giá. - Position bias — trong pairwise, thường ưu tiên response A (position đầu). Workaround: swap vị trí, trung bình 2 lần. - Verbosity bias — thích câu dài. Workaround: add "length is not a quality signal" vào prompt judge. - Calibration issue — model tránh cho điểm 1 hoặc 5, dồn về 3-4. - Không giỏi đánh giá factual correctness nếu judge cũng không biết fact — cần ground truth hoặc RAG. - Cost khi scale lớn. Best practice: - Validate judge vs human trước khi tin: chấm 100-200 mẫu bằng human, đo agreement (Cohen's kappa, Spearman). Mục tiêu ≥0.6-0.7. - Chain-of-thought prompting: yêu cầu judge reasoning trước khi cho điểm → cải thiện chất lượng. - Multiple judges + aggregate: panel 3 model khác nhau, majority vote hoặc average. - Specialized judge: model nhỏ fine-tune cho task eval cụ thể (Prometheus, JudgeLM) — rẻ và chính xác hơn dùng GPT-4 general. - Kết hợp metric khác: không dùng judge độc lập — thêm automated metric + human spot-check. Tool: RAGAS, DeepEval, TruLens, Arize Phoenix, LangSmith eval, Braintrust.