Trung BìnhAI Engineering iconAI Engineering

Multi-modal AI là gì? CLIP và vision-language model hoạt động ra sao?

Multi-modal AI = mô hình xử lý nhiều loại dữ liệu cùng lúc (text, image, audio, video). Hai hướng chính: perception (hiểu đa phương thức — VLM như GPT-4V, Claude 3.5, Gemini) và generation (sinh đa phương thức — DALL-E, Stable Diffusion, Sora).

CLIP (Contrastive Language-Image Pre-training, OpenAI 2021) — nền tảng của nhiều VLM hiện đại:
- Hai encoder: image encoder (ViT hoặc ResNet) và text encoder (Transformer).
- Train trên 400M pair (image, caption) từ web.
- Contrastive loss: cho batch N pair (image_i, text_i), matrix N×N similarity. Maximize diagonal (match đúng), minimize off-diagonal.
- Kết quả: image và text mô tả nó có embedding gần nhau trong shared space.

Ứng dụng CLIP: zero-shot image classification (so ảnh với "a photo of a cat", "a photo of a dog"), semantic image search, multi-modal retrieval, image-text alignment loss cho model khác.

Vision-Language Model (VLM) hiện đại (GPT-4V, Claude 3.5 Sonnet, Gemini, LLaVA, Qwen-VL, Llama 3.2 Vision):

1. Vision encoder (thường ViT được CLIP pre-train) biến ảnh thành sequence của image patches embedding.
2. Projector / adapter (MLP nhỏ) ánh xạ image embedding sang không gian LLM embedding.
3. LLM decoder nhận tokens = [image patches] + [text tokens] → sinh response bình thường.

Với LLaVA: vision encoder CLIP + 2-layer MLP + Vicuna/Llama. Train 2 giai đoạn:

  1. freeze LLM + vision, chỉ train projector trên image captioning
  2. instruction tuning end-to-end với dataset visual instruction

Kiến trúc khác:
- Flamingo (DeepMind) — cross-attention xen kẽ giữa text layer và image feature.
- Fuyu (Adept) — bỏ vision encoder, đưa thẳng image patches vào LLM.

Khả năng VLM: OCR, visual Q&A, scene understanding, chart/table reading, UI automation, image captioning, medical imaging. Giới hạn: resolution (phải resize), chi tiết nhỏ, reasoning spatial phức tạp, video dài.

Trend: model omni-modal (GPT-4o, Gemini 2.x, Claude 4) xử lý cả text + image + audio + video trong 1 model thống nhất, không cần pipeline rời.

Xem toàn bộ AI Engineering cùng filter theo level & chủ đề con.

Mở danh sách AI Engineering