PII (Personally Identifiable Information) gồm: tên, email, SĐT, CMND/CCCD, thẻ tín dụng, địa chỉ, MRN, SSN... Rủi ro chính với LLM:
- Lộ PII qua logs / training data.
- Provider bên thứ 3 thấy PII (OpenAI, Anthropic — trừ khi có ZDR agreement).
- Model memorization (với model self-train).
- GDPR / CCPA / HIPAA vi phạm — phạt nặng.
Chiến lược bảo vệ:
1. Minimize PII gửi lên LLM (nguyên tắc vàng):
- Tokenize/redact trước khi gửi: thay PII bằng placeholder ([NAME_1], [EMAIL_1]), map giữ local. LLM chỉ thấy placeholder; sau khi có response thì un-mask. Library: Presidio (Microsoft), Pii-Codex, spaCy custom.
- Hash/pseudonymize với ID dùng chung nhiều lần.
2. Provider với data privacy commitment:
- Zero Data Retention (ZDR): OpenAI Enterprise, Anthropic, Google Vertex — không lưu, không dùng để train.
- Azure OpenAI, AWS Bedrock — dữ liệu ở region bạn chọn, GDPR-compliant, có BAA cho HIPAA.
- Self-host (vLLM, Ollama với Llama/Qwen) — data không ra ngoài. Cần GPU ops.
3. Output scanning: LLM có thể sinh PII (hallucinate ra email, tên), hoặc regurgitate từ context. Scan output trước khi trả user: Presidio analyze + redact.
4. Logging & storage:
- Không log raw prompt/response chứa PII. Nếu cần debug, log placeholder version.
- Retention policy: auto-delete log theo TTL (VD 30 ngày).
- Encryption at rest + in transit.
- Access control: ai xem được log?
5. Training data: nếu fine-tune, scrub dataset trước (Presidio + manual review). Model có thể memorize training data — nguy cơ rò rỉ.
6. User consent & transparency:
- Privacy notice rõ: dữ liệu nào đi đâu, lưu bao lâu, gửi cho provider nào.
- Data Subject Rights (GDPR): export (Article 15), delete (Article 17 — "right to be forgotten"), opt-out training.
- DPIA (Data Protection Impact Assessment) cho AI feature xử lý dữ liệu nhạy cảm.
7. Kỹ thuật nâng cao:
- Differential privacy khi train (noise thêm vào gradient).
- Federated learning với dữ liệu y tế/tài chính nhạy cảm.
- Homomorphic encryption / confidential computing (Intel SGX, AWS Nitro Enclave) — hiếm dùng vì chậm.
Checklist trước khi ship: data flow diagram, PII inventory, DPIA, contract với provider (DPA), incident response plan, audit log, team training về GDPR/CCPA/HIPAA.