Mixture of Experts (MoE) là gì? Khác gì dense model?

Question

Luyện Phỏng Vấn IT · Accepted Answer

Dense model (LLaMA, GPT-3) — mỗi forward pass kích hoạt TOÀN BỘ tham số. MoE model (Mixtral 8x7B, DeepSeek-V3; nhiều frontier model cũng được cho là dùng MoE) — chỉ kích hoạt một subset (gọi là "experts") ở mỗi token. Cấu trúc: thay FFN dense bằng MoE layer gồm N experts (mỗi expert là một FFN độc lập) + router (gating network nhỏ). Với mỗi token, router chấm điểm, chọn top-k experts (thường k=1 hoặc 2), rồi tổng hợp output có trọng số. Mixtral 8x7B có 8 experts, top-2 → mỗi token kích hoạt ~13B params dù tổng là 47B. Lợi ích: capacity cao (tổng params lớn → học được nhiều kiến thức) nhưng inference rẻ (chỉ 1 phần params active). Chi phí: memory cao (phải load hết experts vào VRAM), routing phức tạp (load imbalance giữa experts, mất ổn định khi train), latency kém khi batch nhỏ vì không tận dụng được. Thuật ngữ phân biệt: "47B total / 13B active" cho Mixtral 8x7B. Khi so sánh, dùng active params để so với dense.