Catastrophic forgetting = khi fine-tune model trên dataset task mới, model quên khả năng chung đã học pre-training. Ví dụ: fine-tune GPT trên medical Q&A xong → trả lời tốt medical nhưng kém coding, yếu reasoning, mất tone "trợ lý hữu ích".
Nguyên nhân: gradient update vào weights làm lệch khỏi distribution pre-training. Loss của task mới thấp nhưng capability cũ bị "overwritten" ở các layer chia sẻ.
Triệu chứng:
- Benchmark chung (MMLU, HellaSwag, HumanEval) drop nhiều.
- Model "too narrow" — chỉ giỏi task fine-tune, refuse hoặc kém với task ngoài.
- Mất alignment: tone thô, không refuse harmful như trước.
Biện pháp phòng tránh:
1. Parameter-Efficient Fine-Tuning (PEFT) — LoRA/QLoRA freeze weights gốc, chỉ update adapter nhỏ → core capability giữ nguyên. Cách đơn giản và hiệu quả nhất. Merge adapter vào base model khi cần inference tối ưu, hoặc giữ adapter riêng để swap.
2. Rehearsal / Replay — trộn dataset task mới với data từ phân phối pre-training (hoặc instruction-tuning general-purpose). Tỷ lệ 70% task mới + 30% general là common. Dataset rehearsal phổ biến: Alpaca, Dolly, UltraChat, SlimOrca.
3. Regularization
- KL divergence penalty — loss thêm term KL(new_model || base_model) để giữ output distribution gần base.
- EWC (Elastic Weight Consolidation) — penalize update vào weights "quan trọng" cho task cũ.
4. Low learning rate + few epochs — train quá nhiều/quá mạnh → forget mạnh. Start với lr=1e-5 cho full FT, 2e-4 cho LoRA, 1-3 epoch thường đủ. Monitor loss dev set; stop sớm khi bắt đầu overfit.
5. Freeze lower layers — chỉ unfreeze các layer trên (gần output). Layer dưới học feature chung, layer trên học task-specific. Thường freeze 50-70% layer đầu.
6. Multi-task training — train đồng thời nhiều task thay vì sequential; gradient cân bằng giảm forgetting.
Eval bắt buộc: benchmark đa domain (MMLU, HellaSwag, HumanEval) trước/sau fine-tune; task-specific test set; theo dõi "alignment tax" (model còn refuse harmful, giữ tone không).
Rule of thumb: fine-tune LLM general-purpose → ưu tiên PEFT + rehearsal. Full fine-tune chỉ khi có infrastructure và tolerate capability loss.