Chi phí LLM quá cao. Các chiến lược giảm chi phí production mà không giảm chất lượng?

Chia theo đòn bẩy, giảm nhiều nhất trước:

1. Prompt Caching (giảm 50-90% prefix cost) — cache system prompt, few-shot, tool schema, RAG context tái dùng. Prefix đặt ở đầu, phần thay đổi ở cuối. Anthropic cache 5min-1h; OpenAI automatic cho ≥1024 token.

2. Model Routing (giảm 60-90%) — model rẻ (Haiku, 4o-mini) cho task đơn giản, model mạnh cho task khó. Pattern: classifier route, hoặc cascade (thử model rẻ trước, escalate khi confidence thấp).

3. Output length control — limit max_tokens, prompt yêu cầu "concise". Output token đắt 4-5x input (GPT-4o: $2.5/$10 in/out — as of 2024, giá thay đổi với GPT-5/Claude 4).

4. Batching + semantic caching — batch offline workload (~50% rẻ hơn qua OpenAI/Anthropic batch API); cache response cho query ngữ nghĩa tương đồng (GPTCache, Redis+vector, hit rate 20-40% với FAQ).

Observability trước khi optimize: LangSmith/Langfuse/Helicone đo $/request, cache hit rate, top-expensive endpoint. 80% chi phí thường đến từ 20% endpoint. Luôn đo eval suite sau thay đổi — rẻ mà kém không phải tiết kiệm.

Xem toàn bộ AI Engineering cùng filter theo level & chủ đề con.

Mở danh sách AI Engineering