Multi-modal AI là gì? CLIP và vision-language model hoạt động ra sao?

Question

Luyện Phỏng Vấn IT · Accepted Answer

Multi-modal AI = mô hình xử lý nhiều loại dữ liệu cùng lúc (text, image, audio, video). Hai hướng chính: perception (hiểu đa phương thức — VLM như GPT-4V, Claude 3.5, Gemini) và generation (sinh đa phương thức — DALL-E, Stable Diffusion, Sora). CLIP (Contrastive Language-Image Pre-training, OpenAI 2021) — nền tảng của nhiều VLM hiện đại: - Hai encoder: image encoder (ViT hoặc ResNet) và text encoder (Transformer). - Train trên 400M pair (image, caption) từ web. - Contrastive loss: cho batch N pair (imagei, texti), matrix N×N similarity. Maximize diagonal (match đúng), minimize off-diagonal. - Kết quả: image và text mô tả nó có embedding gần nhau trong shared space. Ứng dụng CLIP: zero-shot image classification (so ảnh với "a photo of a cat", "a photo of a dog"), semantic image search, multi-modal retrieval, image-text alignment loss cho model khác. Vision-Language Model (VLM) hiện đại (GPT-4V, Claude 3.5 Sonnet, Gemini, LLaVA, Qwen-VL, Llama 3.2 Vision): 1. Vision encoder (thường ViT được CLIP pre-train) biến ảnh thành sequence của image patches embedding. 2. Projector / adapter (MLP nhỏ) ánh xạ image embedding sang không gian LLM embedding. 3. LLM decoder nhận tokens = [image patches] + [text tokens] → sinh response bình thường. Với LLaVA: vision encoder CLIP + 2-layer MLP + Vicuna/Llama. Train 2 giai đoạn: (1) freeze LLM + vision, chỉ train projector trên image captioning; (2) instruction tuning end-to-end với dataset visual instruction. Kiến trúc khác: - Flamingo (DeepMind) — cross-attention xen kẽ giữa text layer và image feature. - Fuyu (Adept) — bỏ vision encoder, đưa thẳng image patches vào LLM. Khả năng VLM: OCR, visual Q&A, scene understanding, chart/table reading, UI automation, image captioning, medical imaging. Giới hạn: resolution (phải resize), chi tiết nhỏ, reasoning spatial phức tạp, video dài. Trend: model omni-modal (GPT-4o, Gemini 2.x, Claude 4) xử lý cả text + image + audio + video trong 1 model thống nhất, không cần pipeline rời.