LLM-as-a-judge là kỹ thuật dùng LLM mạnh (GPT-4, Claude 3.5) làm "trọng tài" chấm điểm output của một LLM khác trên các tiêu chí như correctness, helpfulness, relevance, safety. Thay thế hoặc bổ sung cho human eval — scale được và rẻ hơn.
Cách dùng:
1. Pairwise comparison: judge so 2 response A và B, chọn cái tốt hơn. Tốt cho so sánh A/B test giữa 2 prompt/model.
2. Single-answer grading: judge chấm 1 response theo rubric (thang 1-5) trên từng criteria. Chi tiết hơn.
3. Reference-based: cho judge biết ground truth, chấm response so với truth (faithfulness, correctness).
4. Reference-free: không có ground truth, judge dùng tiêu chí chung (helpfulness, coherence).
Ưu điểm:
- Scale: đánh giá 10K-1M response mà không cần human.
- Rẻ: $0.001-0.01/eval so với human $1-5.
- Nhanh: giờ thay vì tuần.
- Consistent: ít fatigue bias hơn human.
- Flexible: rubric mới không cần re-train classifier.
Nhược điểm và bias cần biết:
- Self-preference bias — model thường thích output của chính nó / same family. Workaround: dùng judge khác family với đánh giá.
- Position bias — trong pairwise, thường ưu tiên response A (position đầu). Workaround: swap vị trí, trung bình 2 lần.
- Verbosity bias — thích câu dài. Workaround: add "length is not a quality signal" vào prompt judge.
- Calibration issue — model tránh cho điểm 1 hoặc 5, dồn về 3-4.
- Không giỏi đánh giá factual correctness nếu judge cũng không biết fact — cần ground truth hoặc RAG.
- Cost khi scale lớn.
Best practice:
- Validate judge vs human trước khi tin: chấm 100-200 mẫu bằng human, đo agreement (Cohen's kappa, Spearman). Mục tiêu ≥0.6-0.7.
- Chain-of-thought prompting: yêu cầu judge reasoning trước khi cho điểm → cải thiện chất lượng.
- Multiple judges + aggregate: panel 3 model khác nhau, majority vote hoặc average.
- Specialized judge: model nhỏ fine-tune cho task eval cụ thể (Prometheus, JudgeLM) — rẻ và chính xác hơn dùng GPT-4 general.
- Kết hợp metric khác: không dùng judge độc lập — thêm automated metric + human spot-check.
Tool: RAGAS, DeepEval, TruLens, Arize Phoenix, LangSmith eval, Braintrust.