Vector search (dense) giỏi ngữ nghĩa (semantic) — tìm được câu diễn đạt khác nhưng cùng ý ("car" ↔ "automobile"). Yếu với: từ hiếm (mã sản phẩm SKU-A2391, tên riêng), acronym, exact match, số liệu.
Keyword search (sparse — BM25, TF-IDF) giỏi exact match và từ hiếm, nhưng không hiểu synonym/paraphrase.
Hybrid search = chạy cả hai, rồi hợp nhất kết quả. Phương pháp phổ biến: Reciprocal Rank Fusion (RRF) — cho mỗi doc tính score = Σ 1/(k + rank_i) trên từng list (k=60 thường dùng); weighted sum — α·dense_score + (1-α)·sparse_score với α tune được (thường 0.5-0.7).
Lợi ích thực tế: recall tăng 10-30% trên nhiều benchmark (BEIR), đặc biệt với query kỹ thuật có tên API/model, code snippet, tên thuốc, mã lỗi. Nhiều vector DB hỗ trợ native: Qdrant (dense + sparse + hybrid scoring), Weaviate (hybrid), pgvector + tsvector, Elastic + kNN.
Nâng cao hơn: thêm metadata filter (tenant_id, date range, category), reranker cross-encoder ở bước cuối trên top-50 hybrid để chọn top-5 chất lượng cao nhất.