Transformer (Vaswani 2017) gồm các khối chính: Token embedding (biến token ID thành vector) + Positional encoding (thêm thông tin vị trí); Multi-Head Self-Attention (cho phép mỗi token "nhìn" các token khác qua Query/Key/Value); Feed-Forward Network (FFN — 2 lớp linear + activation, thường mở rộng 4x hidden size); Residual connection + LayerNorm quanh mỗi sub-layer để train sâu ổn định.
Hai biến thể chính: Encoder-only (BERT — hiểu/classify); Decoder-only (GPT, LLaMA — sinh text, có causal mask); Encoder-Decoder (T5, BART — dịch/tóm tắt). LLM hiện đại hầu hết là decoder-only. Các cải tiến phổ biến: RoPE thay positional encoding, SwiGLU thay ReLU, RMSNorm thay LayerNorm, GQA (Grouped-Query Attention) giảm memory của KV cache, Flash Attention tối ưu I/O GPU.