Context window là số token tối đa model có thể "nhìn thấy" cùng lúc — bao gồm cả prompt (system + user + history) và output đang sinh. Ví dụ GPT-4.1 128K, Claude 4 Sonnet 200K, Gemini 2.x up to 2M (tính đến 2025).
Tại sao quan trọng:
- Giới hạn input — tài liệu dài, conversation history, code base phải vừa trong cửa sổ.
- Chi phí & latency — attention là O(n²) theo độ dài context nên context dài → inference chậm và đắt hơn.
- Chất lượng suy giảm — hiện tượng "lost in the middle": model thường chú ý kém với thông tin ở giữa context dài.
Các kỹ thuật xử lý khi vượt context: sliding window / truncation giữ các phần quan trọng nhất, summarization gói gọn history cũ, RAG chỉ retrieve đoạn liên quan thay vì đẩy hết tài liệu vào, prompt compression (LLMLingua) nén prompt, hierarchical processing chia nhỏ rồi tổng hợp.