Tokenization là gì? BPE (Byte Pair Encoding) hoạt động ra sao?

Question

Luyện Phỏng Vấn IT · Accepted Answer

Tokenization là bước chia text thành đơn vị nhỏ (token) mà model có thể hiểu — có thể là ký tự, subword, hoặc word. LLM hiện đại thường dùng subword tokenization vì cân bằng được kích thước vocabulary và khả năng xử lý từ chưa thấy (OOV).

BPE bắt đầu với vocabulary là các ký tự đơn lẻ, rồi lặp lại: đếm cặp ký tự/subword liền kề xuất hiện nhiều nhất → gộp (merge) cặp đó thành token mới → thêm vào vocabulary. Lặp cho đến khi đạt kích thước vocab mong muốn (ví dụ 50K). Kết quả: từ phổ biến → 1 token; từ hiếm → nhiều subword token.

Lưu ý thực tế: token không phải là word — "hello" thường là 1 token, "hellloooo" có thể là 3-4 token. Tính token count để quản lý context window và chi phí (API tính theo token). Biến thể: WordPiece (BERT), SentencePiece (dùng ở LLaMA, T5 — xử lý được ngôn ngữ không có khoảng trắng như tiếng Nhật).