Embedding drift khi đổi embedding model. Cách xử lý migration?

Embedding drift xảy ra khi model embedding mới có distribution/dimension khác với model cũ → vector cũ trong DB không so sánh được với query embedding mới, search quality crash.

Dạng drift:

1. Dimension mismatch — text-embedding-ada-002 (1536d) → text-embedding-3-large (3072d): không thể cosine similarity được.
2. Same dimension, different space — cả hai 1536d nhưng train với data/method khác nhau → gần nhau về số nhưng "gần về ngữ nghĩa" khác nhau.
3. Provider version upgrade — OpenAI update ada-002 silently (đã từng xảy ra) → vector cũ sai so với vector mới.

Vấn đề tại sao phải migration:
- Model mới chất lượng cao hơn (MTEB score tốt hơn).
- Model cũ bị deprecate (OpenAI retire models).
- Cost: model mới rẻ hơn (text-embedding-3-small rẻ hơn ada-002 nhiều lần).
- Compliance / privacy (chuyển sang self-hosted).

Chiến lược migration:

1. Full re-embed (tiêu chuẩn)
- Chạy batch re-embed toàn bộ corpus với model mới.
- Lưu vào collection mới song song (không overwrite).
- Deploy query mới dùng model mới → search collection mới.
- Drop collection cũ sau khi validate.
- Chi phí: thời gian + API cost (có thể lớn — 10M doc × $0.00002/token × 500 token/doc = $100).

2. Dual-write / Shadow deployment
- Ghi cả embedding cũ và mới vào DB trong giai đoạn transition.
- Query song song hai collection → so sánh quality.
- Cutover khi confidence đủ.
- Dùng khi corpus update thường xuyên.

3. Progressive migration
- Corpus lớn, không thể re-embed ngay → migrate theo tier ưu tiên (active docs trước, archive sau).
- Query hit cả hai, merge với weighting.

4. Matryoshka / Dimension truncation
- text-embedding-3 hỗ trợ truncate dimension (256, 512, 1024, 1536) — vẫn meaningful.
- Khi chuyển giữa chiều cao ↔ thấp của cùng model Matryoshka, chỉ cần truncate vector hiện có, không re-embed.

Xử lý lúc chạy song song 2 model:
- Lưu thêm field embedding_version trong metadata.
- Query router biết dùng model/collection nào dựa trên version target.
- Fallback: nếu doc chưa có embedding mới → on-the-fly re-embed.

Validate chất lượng sau migration:

1. A/B retrieval quality — golden query set → so top-K doc retrieve ở 2 version. Recall@k giảm là red flag.
2. End-to-end RAG metrics — RAGAS faithfulness, answer_correctness.
3. User metrics — click-through, satisfaction score, CSAT (nếu có).
4. Canary rollout — 1% → 10% → 50% → 100%; rollback nhanh khi drop.

Prevent drift proactively:

Pin model version — dùng endpoint có version cụ thể (text-embedding-3-small-2024-xx), không dùng latest alias.
Shadow eval pipeline — định kỳ run query set qua model mới → so với production. Phát hiện drift sớm.
Versioned store — index vector theo version; support multi-version coexist.
Immutable corpus backup — giữ raw text để re-embed khi cần.

Khi self-host embedding: đóng gói model version trong Docker image, không auto-update — embedding khác giữa các build là lỗi ngầm rất khó debug.

Embedding drift happens when a new embedding model has a different distribution/dimension from the old one → old DB vectors become incomparable with new query embeddings, search quality crashes.

Forms of drift:

1. Dimension mismatch — text-embedding-ada-002 (1536d) → text-embedding-3-large (3072d): cosine similarity impossible.
2. Same dim, different space — both 1536d but trained on different data/methods → numerically close but semantically different.
3. Silent provider version bump — OpenAI has silently updated ada-002 before → old vectors drift vs new.

Why migrate at all:
- New model quality is higher (better MTEB score).
- Old model deprecated (OpenAI retires models).
- Cost: new model cheaper (text-embedding-3-small << ada-002).
- Compliance / privacy (move to self-hosted).

Migration strategies:

1. Full re-embed (standard)
- Batch re-embed the entire corpus with the new model.
- Write to a parallel new collection (don't overwrite).
- Deploy new queries to the new collection.
- Drop old collection after validation.
- Cost: time + API fees (can be large — 10M docs × $0.00002/token × 500 tokens/doc = $100).

2. Dual-write / shadow deployment
- During transition, write both old and new embeddings.
- Query both in parallel → compare quality.
- Cut over when confident.
- Useful for fast-updating corpora.

3. Progressive migration
- Large corpus, can't re-embed at once → migrate tiers by priority (active docs first, archive later).
- Queries hit both and merge with weighting.

4. Matryoshka / dimension truncation
- text-embedding-3 supports truncatable dims (256, 512, 1024, 1536) — still meaningful.
- Switching between high/low dims of the same Matryoshka model → just truncate, no re-embed.

Running two models in parallel:
- Add embedding_version to metadata.
- Query router picks model/collection based on target version.
- Fallback: if a doc lacks the new embedding → on-the-fly re-embed.

Validate quality post-migration:

1. A/B retrieval quality — golden query set → compare top-K docs across versions. Drop in Recall@k is a red flag.
2. End-to-end RAG metrics — RAGAS faithfulness, answer_correctness.
3. User metrics — click-through, satisfaction, CSAT (if available).
4. Canary rollout — 1% → 10% → 50% → 100%; fast rollback on regression.

Prevent drift proactively:

Pin model versions — use versioned endpoints (text-embedding-3-small-2024-xx), not latest aliases.
Shadow eval pipeline — periodically run a query set through the new model vs production. Catches drift early.
Versioned store — index vectors by version; support multi-version coexistence.
Immutable corpus backup — keep raw text so you can re-embed on demand.

Self-hosted embeddings: pin the model version in the Docker image, never auto-update — differing embeddings between builds is a nasty silent bug.

Xem toàn bộ AI Engineering cùng filter theo level & chủ đề con.

Mở danh sách AI Engineering

Embedding drift khi đổi embedding model. Cách xử lý migration?

Dạng drift:

Chiến lược migration:

3. Progressive migration
- Corpus lớn, không thể re-embed ngay → migrate theo tier ưu tiên (active docs trước, archive sau).
- Query hit cả hai, merge với weighting.

Validate chất lượng sau migration:

Prevent drift proactively:

Pin model version — dùng endpoint có version cụ thể (text-embedding-3-small-2024-xx), không dùng latest alias.
Shadow eval pipeline — định kỳ run query set qua model mới → so với production. Phát hiện drift sớm.
Versioned store — index vector theo version; support multi-version coexist.
Immutable corpus backup — giữ raw text để re-embed khi cần.

Khi self-host embedding: đóng gói model version trong Docker image, không auto-update — embedding khác giữa các build là lỗi ngầm rất khó debug.

Forms of drift:

Migration strategies:

3. Progressive migration
- Large corpus, can't re-embed at once → migrate tiers by priority (active docs first, archive later).
- Queries hit both and merge with weighting.

Validate quality post-migration:

Prevent drift proactively:

Pin model versions — use versioned endpoints (text-embedding-3-small-2024-xx), not latest aliases.
Shadow eval pipeline — periodically run a query set through the new model vs production. Catches drift early.
Versioned store — index vectors by version; support multi-version coexistence.
Immutable corpus backup — keep raw text so you can re-embed on demand.

Self-hosted embeddings: pin the model version in the Docker image, never auto-update — differing embeddings between builds is a nasty silent bug.

Xem toàn bộ AI Engineering cùng filter theo level & chủ đề con.

Mở danh sách AI Engineering