Scaling laws (Kaplan 2020, Hoffmann 2022 "Chinchilla") — mô tả quan hệ giữa loss và 3 yếu tố: parameters (N), data (D), compute (C). Key finding: loss giảm theo power law khi scale bất kỳ yếu tố nào, với các yếu tố cần scale cân bằng.
Chinchilla scaling (landmark): với compute budget cố định, tối ưu khi N và D scale đều nhau (~20 token/param). GPT-3 (175B params, 300B token) undertrained; Chinchilla (70B params, 1.4T token) perform tốt hơn với ít compute hơn.
Emergent abilities (Wei 2022) — khả năng xuất hiện đột ngột ở một ngưỡng scale, không có ở model nhỏ hơn:
- Chain-of-thought reasoning — GPT-3 (175B) có, nhỏ hơn không.
- In-context learning (few-shot) — mạnh lên theo scale.
- Instruction following (sau fine-tune).
- Multi-step arithmetic, word unscrambling, code generation.
Controversy 2023+: một số paper (Schaeffer 2023) argue emergence là artifact của metric (discrete accuracy thay vì continuous loss) — trên loss curve thực ra smooth. Nhưng với user-facing metrics (có/không giải được bài toán), emergence thực tế quan sát được.
Implications thực tế:
- Đừng đánh giá task khó trên model nhỏ — có thể "không làm được" chỉ vì chưa đủ scale.
- Fine-tune không "đưa" được ability chưa emerged.
- Khi scale up, plan cho khả năng mới có thể xuất hiện (và rủi ro mới — jailbreak, manipulation).
Trend hiện tại: scaling-only đã giảm diminishing returns ở > 500B. Hướng mới: test-time compute (o1, o3 — spend compute reasoning thay vì chỉ train to hơn), MoE (capacity cao nhưng inference rẻ), data quality > quantity.