Scaling laws và emergent abilities: tại sao LLM lớn hơn có khả năng mới?

Question

Luyện Phỏng Vấn IT · Accepted Answer

Scaling laws (Kaplan 2020, Hoffmann 2022 "Chinchilla") — mô tả quan hệ giữa loss và 3 yếu tố: parameters (N), data (D), compute (C). Key finding: loss giảm theo power law khi scale bất kỳ yếu tố nào, với các yếu tố cần scale cân bằng. Chinchilla scaling (landmark): với compute budget cố định, tối ưu khi N và D scale đều nhau (~20 token/param). GPT-3 (175B params, 300B token) undertrained; Chinchilla (70B params, 1.4T token) perform tốt hơn với ít compute hơn. Emergent abilities (Wei 2022) — khả năng xuất hiện đột ngột ở một ngưỡng scale, không có ở model nhỏ hơn: - Chain-of-thought reasoning — GPT-3 (175B) có, nhỏ hơn không. - In-context learning (few-shot) — mạnh lên theo scale. - Instruction following (sau fine-tune). - Multi-step arithmetic, word unscrambling, code generation. Controversy 2023+: một số paper (Schaeffer 2023) argue emergence là artifact của metric (discrete accuracy thay vì continuous loss) — trên loss curve thực ra smooth. Nhưng với user-facing metrics (có/không giải được bài toán), emergence thực tế quan sát được. Implications thực tế: - Đừng đánh giá task khó trên model nhỏ — có thể "không làm được" chỉ vì chưa đủ scale. - Fine-tune không "đưa" được ability chưa emerged. - Khi scale up, plan cho khả năng mới có thể xuất hiện (và rủi ro mới — jailbreak, manipulation). Trend hiện tại: scaling-only đã giảm diminishing returns ở > 500B. Hướng mới: test-time compute (o1, o3 — spend compute reasoning thay vì chỉ train to hơn), MoE (capacity cao nhưng inference rẻ), data quality > quantity.