Scaling laws (Kaplan 2020, Hoffmann 2022 "Chinchilla") — mô tả quan hệ giữa loss và 3 yếu tố: parameters (N), data (D), compute (C). Key finding: loss giảm theo power law khi scale bất kỳ yếu tố nào, với các yếu tố cần scale cân bằng.
Chinchilla scaling (landmark): với compute budget cố định, tối ưu khi N và D scale đều nhau (~20 token/param). GPT-3 (175B params, 300B token) undertrained; Chinchilla (70B params, 1.4T token) perform tốt hơn với ít compute hơn.
Emergent abilities (Wei 2022) — khả năng xuất hiện đột ngột ở một ngưỡng scale, không có ở model nhỏ hơn:
- Chain-of-thought reasoning — GPT-3 (175B) có, nhỏ hơn không.
- In-context learning (few-shot) — mạnh lên theo scale.
- Instruction following (sau fine-tune).
- Multi-step arithmetic, word unscrambling, code generation.
Controversy 2023+: một số paper (Schaeffer 2023) argue emergence là artifact của metric (discrete accuracy thay vì continuous loss) — trên loss curve thực ra smooth. Nhưng với user-facing metrics (có/không giải được bài toán), emergence thực tế quan sát được.
Implications thực tế:
- Đừng đánh giá task khó trên model nhỏ — có thể "không làm được" chỉ vì chưa đủ scale.
- Fine-tune không "đưa" được ability chưa emerged.
- Khi scale up, plan cho khả năng mới có thể xuất hiện (và rủi ro mới — jailbreak, manipulation).
Trend hiện tại: scaling-only đã giảm diminishing returns ở > 500B. Hướng mới: test-time compute (o1, o3 — spend compute reasoning thay vì chỉ train to hơn), MoE (capacity cao nhưng inference rẻ), data quality > quantity.
Scaling laws (Kaplan 2020, Hoffmann 2022 "Chinchilla") — describe the relationship between loss and 3 factors: parameters (N), data (D), compute (C). Key finding: loss decreases as a power law with any factor, provided they scale in balance.
Chinchilla scaling (landmark): for a fixed compute budget, the optimum scales N and D equally (~20 tokens/param). GPT-3 (175B params, 300B tokens) was undertrained; Chinchilla (70B params, 1.4T tokens) outperformed it with less compute.
Emergent abilities (Wei 2022) — capabilities that appear suddenly at some scale threshold, absent in smaller models:
- Chain-of-thought reasoning — present in GPT-3 (175B), absent in smaller.
- In-context learning (few-shot) — strengthens with scale.
- Instruction following (post fine-tune).
- Multi-step arithmetic, word unscrambling, code generation.
2023+ controversy: some papers (Schaeffer 2023) argue emergence is a metric artifact (discrete accuracy rather than continuous loss) — loss curves are actually smooth. But for user-facing metrics (can the model solve the problem or not), emergence is observed in practice.
Practical implications:
- Don't evaluate hard tasks on tiny models — they may "fail" simply from insufficient scale.
- Fine-tuning cannot "add" unemerged capabilities.
- When scaling up, plan for new capabilities (and new risks — jailbreak, manipulation).
Current trend: scaling-only has hit diminishing returns past ~500B. New directions: test-time compute (o1, o3 — spend compute on reasoning instead of only training bigger), MoE (high capacity, cheap inference), data quality > quantity.