▤ Dữ liệu & Hạ tầng

Dữ liệu và chủ quyền mô hình: nền tảng của AI tự chủ

Vì sao dữ liệu chất lượng quyết định chất lượng mô hình AI, vai trò của dữ liệu tiếng Việt, quản trị dữ liệu theo luật mới, cuộc tranh luận mô hình mở vs đóng, và chủ quyền AI quốc gia của Việt Nam.

Dữ liệu và chủ quyền mô hình: nền tảng của AI tự chủ

Nếu hạ tầng tính toán là “cơ bắp” của AI, thì dữ liệu là “máu” nuôi nó. Một mô hình ngôn ngữ chỉ thông minh đến mức dữ liệu mà nó học. Khi AI trở thành công nghệ chiến lược, hai câu hỏi nổi lên: ai sở hữu dữ liệu, và ai kiểm soát mô hình được huấn luyện từ dữ liệu đó. Đây chính là bài toán chủ quyền mô hình — không chỉ về kỹ thuật mà còn về kinh tế, pháp lý và an ninh quốc gia.

Dữ liệu chất lượng quyết định mô hình

Có một nguyên tắc kinh điển: “rác vào, rác ra” (garbage in, garbage out). Trong kỷ nguyên LLM, nguyên tắc này càng đúng:

  • Khối lượng: các mô hình lớn cần hàng trăm tỷ đến hàng nghìn tỷ token để học ngữ pháp, kiến thức và lập luận.
  • Chất lượng: dữ liệu sạch, đã khử trùng lặp và loại nhiễu quan trọng hơn dữ liệu thô khổng lồ. DeepSeek-V3 — được công bố huấn luyện với chi phí compute khoảng 6 triệu USD — cho thấy dữ liệu và kiến trúc tốt có thể bù cho tài nguyên hạn chế.
  • Tính đa dạng và đại diện: nếu dữ liệu thiên lệch (bias), mô hình sẽ tái tạo và khuếch đại thiên lệch đó.

Chất lượng dữ liệu không tự nhiên có. Nó đòi hỏi quy trình thu thập, làm sạch, gán nhãn và đánh giá nghiêm ngặt — thường chiếm phần lớn công sức của một dự án AI.

Dữ liệu tiếng Việt: tài sản chiến lược

Phần lớn dữ liệu huấn luyện AI toàn cầu là tiếng Anh và tiếng Trung. Tiếng Việt là ngôn ngữ “ít tài nguyên” (low-resource) trong góc nhìn của các mô hình quốc tế, dẫn tới hiểu sai ngữ cảnh, dấu thanh và văn hóa bản địa.

Cộng đồng nghiên cứu Việt Nam đã xây dựng nhiều mô hình tiếng Việt làm nền tảng:

  • PhoGPT (VinAI Research, 2023): mô hình sinh ngôn ngữ tiếng Việt mã nguồn mở; bản PhoGPT-4B huấn luyện từ đầu trên kho ngữ liệu khoảng 102 tỷ token (482 GB sau khi làm sạch và khử trùng lặp).
  • ViGPT (VinBigdata): được giới thiệu là “phiên bản ChatGPT tiếng Việt” cho người dùng cuối.
  • VinaLLaMA, URA-LLaMA, Vietcuna: các mô hình nền dựa trên LLaMA hoặc BLOOMZ, xử lý đặc thù cú pháp và ngữ nghĩa tiếng Việt.

Sở hữu kho dữ liệu tiếng Việt chất lượng cao là điều kiện tiên quyết để xây dựng AI phục vụ người Việt — từ trợ lý ảo, dịch vụ công đến y tế và giáo dục.

Quản trị dữ liệu: khung pháp lý mới của Việt Nam

Dữ liệu chỉ tạo giá trị khi được quản trị đúng. Việt Nam đã ban hành khung pháp lý dữ liệu mạnh trong giai đoạn 2024–2026:

  • Luật Dữ liệu (Luật số 60/2024/QH15): thông qua 30/11/2024, hiệu lực 1/7/2025. Mở rộng quản lý ra mọi dữ liệu số, đưa ra khái niệm “dữ liệu quan trọng” và “dữ liệu cốt lõi” với hạn chế chuyển ra nước ngoài dựa trên quốc phòng – an ninh.
  • Luật Bảo vệ Dữ liệu Cá nhân (Luật số 91/2025/QH15): thông qua 26/6/2025, hiệu lực 1/1/2026. Áp dụng cho cả tổ chức trong và ngoài nước xử lý dữ liệu cá nhân trên lãnh thổ Việt Nam; tăng cường quyền của chủ thể dữ liệu, yêu cầu đánh giá tác động và bảo vệ dữ liệu nhạy cảm.
  • Yêu cầu nội địa hóa dữ liệu (data localization): một số loại dữ liệu — tên tài khoản, lịch sử sử dụng dịch vụ, thông tin thanh toán, địa chỉ IP — phải lưu trữ trong nước.

Khung này định hình cách doanh nghiệp xây dựng và vận hành AI: dữ liệu người Việt phải được xử lý có trách nhiệm và, với nhiều loại, phải nằm trên hạ tầng trong nước.

Mô hình mở vs mô hình đóng

Cuộc tranh luận trung tâm của ngành AI 2025–2026 là giữa mô hình trọng số mở (open-weight) và mô hình đóng (closed/proprietary):

  • Mô hình đóng (GPT, Claude, Gemini): chỉ truy cập qua API, người dùng không tải được trọng số. Ưu thế: chất lượng đỉnh, dễ dùng. Nhược điểm: phụ thuộc nhà cung cấp, dữ liệu rời khỏi tầm kiểm soát, chi phí dài hạn khó dự đoán.
  • Mô hình mở (Llama, DeepSeek, Qwen, GLM): trọng số được công bố, có thể tải về tự vận hành. Ưu thế: kiểm soát, tránh khóa nhà cung cấp (vendor lock-in), tuân thủ dữ liệu tốt hơn, tùy biến trên dữ liệu riêng.

Điểm quan trọng năm 2025–2026: khoảng cách chất lượng giữa mở và đóng đã thu hẹp còn khoảng 6–12 tháng và đang tiếp tục co lại. DeepSeek-R1 (1/2025) sánh ngang lớp GPT-4 trên nhiều benchmark nhưng phát hành dưới dạng trọng số mở. Qwen 3.5 (2/2026) trở thành mô hình mở mạnh nhất trên nhiều bài kiểm tra lập luận. Với phần lớn tác vụ doanh nghiệp — lập trình, phân loại, tóm tắt, trích xuất dữ liệu có cấu trúc — mô hình mở tốt nhất nay đã ngang ngửa các mô hình đóng hàng đầu.

Đáng chú ý, nhiều phòng lab Trung Quốc phát hành mô hình mở không nhằm bán mô hình, mà để nâng vị thế AI quốc gia và đối phó hạn chế xuất khẩu chip — một tính toán chiến lược hơn là thương mại thuần túy.

Chủ quyền AI quốc gia

Chủ quyền AI (sovereign AI) là khả năng một quốc gia tự xây dựng, kiểm soát và vận hành AI bằng hạ tầng, dữ liệu và nhân lực của mình. Với Việt Nam, chủ quyền AI thể hiện qua:

  • Nghị quyết 57-NQ/TW (22/12/2024): nhấn mạnh Việt Nam cần tự chủ công nghệ AI để tránh phụ thuộc số, đặt mục tiêu top 3 Đông Nam Á về R&D AI vào 2030.
  • Luật Trí tuệ nhân tạo: thông qua tháng 12/2025, hiệu lực 1/3/2026 — tạo khung pháp lý ràng buộc đầu tiên cho AI tại Việt Nam.
  • Hạ tầng trong nước: hệ thống C-OpenAI của CMC vận hành trên CMC Cloud nhằm bảo đảm chủ quyền dữ liệu Việt; VNPT AI hướng tới giảm phụ thuộc.

Mô hình mở đóng vai trò then chốt trong chủ quyền AI: thay vì lệ thuộc API nước ngoài, một quốc gia có thể lấy mô hình mở làm nền, tinh chỉnh trên dữ liệu bản địa và triển khai trên hạ tầng trong nước — vừa tiết kiệm vừa giữ quyền kiểm soát.

Kết luận

Dữ liệu và mô hình là hai mặt của cùng một tài sản chiến lược. Dữ liệu tiếng Việt chất lượng cao, được quản trị theo luật mới, kết hợp với mô hình mở và hạ tầng trong nước, tạo nên con đường để Việt Nam xây dựng AI tự chủ. Chủ quyền mô hình không phải khẩu hiệu — nó là tổng hòa của dữ liệu sạch, khung pháp lý vững và năng lực tự vận hành mô hình mà không bị khóa bởi bên thứ ba.

Nguồn tham khảo