★ AI Việt Nam

Mô hình ngôn ngữ tiếng Việt và chủ quyền AI: PhoGPT, VinaLLaMA, KiLM và cuộc đua làm chủ tiếng mẹ đẻ

Tổng quan các mô hình ngôn ngữ lớn (LLM) cho tiếng Việt — PhoGPT, VinaLLaMA, KiLM của VNG, mô hình của Viettel, GreenMind — cùng vai trò của mô hình nội địa, dữ liệu tiếng Việt và chủ quyền số trong kỷ nguyên AI.

Mô hình ngôn ngữ tiếng Việt và chủ quyền AI

Tiếng Việt là ngôn ngữ của gần 100 triệu người, nhưng trong thế giới AI lại thuộc nhóm “ngôn ngữ tài nguyên thấp” (low-resource language) so với tiếng Anh hay tiếng Trung. Việc tự xây dựng các mô hình ngôn ngữ lớn (LLM) hiểu sâu tiếng Việt không chỉ là bài toán kỹ thuật, mà còn là vấn đề chủ quyền số — quyền tự chủ về dữ liệu, văn hóa và hạ tầng tri thức của quốc gia. Bài viết điểm lại các mô hình tiếng Việt tiêu biểu và lý giải vì sao mô hình nội địa lại quan trọng.

1. Vì sao tiếng Việt cần mô hình riêng?

Các mô hình quốc tế như GPT, Gemini, Llama đều hỗ trợ tiếng Việt, nhưng tiếng Việt thường chỉ chiếm một tỷ lệ nhỏ trong dữ liệu huấn luyện. Hệ quả là:

  • Hiểu ngữ cảnh văn hóa hạn chế: thành ngữ, lịch sử, pháp luật, phong tục Việt Nam dễ bị hiểu sai hoặc bịa đặt.
  • Thanh điệu và chính tả phức tạp: tiếng Việt có dấu thanh, dấu phụ; mô hình thiếu dữ liệu dễ sai dấu, sai nghĩa.
  • Phụ thuộc hạ tầng nước ngoài: dùng API của bên thứ ba đặt câu hỏi về quyền riêng tư dữ liệu, chi phí và sự ổn định lâu dài.

Đây chính là động lực để Việt Nam phát triển LLM “made in Vietnam”.

2. Các mô hình ngôn ngữ tiếng Việt tiêu biểu

PhoGPT (VinAI Research)

PhoGPT-4B là mô hình ngôn ngữ đơn ngữ tiếng Việt, được huấn luyện từ đầu (pre-trained from scratch) trên kho ngữ liệu tiếng Việt khoảng 102 tỷ token, với độ dài ngữ cảnh 8192. PhoGPT do VinAI công bố như một dự án nghiên cứu mã nguồn mở, đánh dấu một trong những nỗ lực bài bản đầu tiên xây LLM tiếng Việt từ con số không. (Lưu ý: bộ phận AI tạo sinh của VinAI đã được Qualcomm mua lại tháng 4/2025.)

VinaLLaMA (nhóm nghiên cứu độc lập)

VinaLLaMA là mô hình mở (open-weight) xây trên nền LLaMA-2, được huấn luyện bổ sung 800 tỷ token tiếng Việt. Phiên bản VinaLLaMA-7B-chat huấn luyện trên 1 triệu mẫu tổng hợp chất lượng cao, đạt kết quả hàng đầu trên các benchmark như VLSP, VMLU và Vicuna Benchmark phiên bản tiếng Việt. Điểm mạnh của VinaLLaMA là sự thông thạo tiếng Việt và hiểu biết văn hóa Việt.

KiLM (VNG / Zalo)

VNG đã tự xây dựng KiLM từ đầu, đưa Việt Nam vào nhóm các quốc gia Đông Nam Á sở hữu LLM riêng. Mô hình KiLM 7B tham số ra mắt cuối 2023 tại Zalo AI Summit; đến cuối 2024, phiên bản 13B tham số được báo cáo vượt một số mô hình quốc tế (GPT-4, Gemma2-9B, Phi-3-small) về năng lực xử lý tiếng Việt trong khung đánh giá VMLU, chỉ xếp sau Llama-70B của Meta. KiLM là nền tảng cho trợ lý giọng nói Kiki của Zalo.

Mô hình của Viettel và GreenMind

Viettel AI phát triển VT-Super-120B-A12B (~120 tỷ tham số), thuộc nhóm dẫn đầu về độ chính xác ở cùng phân khúc, và mô hình Llama 3 ViettelSolution 8B dùng dữ liệu được làm sạch bằng NVIDIA NeMo Curator. GreenMind-Medium-14B-R1 của GreenNode trở thành LLM suy luận (reasoning) tiếng Việt mã nguồn mở đầu tiên tích hợp NVIDIA NIM, chạy được trên một GPU NVIDIA H100 duy nhất — phù hợp cho trợ lý doanh nghiệp, chatbot, và truy xuất tài liệu tiếng Việt.

ViGPT (VinBigData)

Mô hình ViGPT-1.6B-v1 của VinBigData nằm trong nhóm các mô hình tiếng Việt được xếp hạng đáng chú ý, hướng tới các ứng dụng trợ lý ảo và xử lý ngôn ngữ trong hệ sinh thái Vingroup.

3. Vai trò của các mô hình quốc tế

Các LLM toàn cầu vẫn quan trọng với người dùng Việt: GPT (OpenAI)Gemini (Google) hỗ trợ tiếng Việt khá tốt nhờ quy mô dữ liệu khổng lồ, là công cụ phổ biến cho công việc hằng ngày. Họ mô hình Llama (Meta) mã nguồn mở trở thành nền tảng để nhiều nhóm Việt Nam tinh chỉnh (fine-tune) thay vì huấn luyện từ đầu — tiết kiệm chi phí đáng kể. Chiến lược thực tế của Việt Nam vì thế là kết hợp: tận dụng mô hình mở quốc tế làm nền, rồi tinh chỉnh bằng dữ liệu và tri thức bản địa.

4. Dữ liệu tiếng Việt — “dầu mỏ” của AI nội địa

Chất lượng LLM phụ thuộc trực tiếp vào chất lượng dữ liệu. Đây là điểm nghẽn và cũng là lợi thế chiến lược:

  • Khan hiếm dữ liệu sạch quy mô lớn: văn bản tiếng Việt số hóa chất lượng cao (sách, báo, văn bản pháp luật, hội thoại) còn ít so với tiếng Anh.
  • Công cụ làm sạch dữ liệu: việc Viettel dùng NVIDIA NeMo Curator để curate dữ liệu tiếng Việt cho thấy khâu xử lý dữ liệu đang được chuẩn hóa.
  • Dữ liệu quy mô dân số: năm 2026, NVIDIA công bố phát triển một bộ dữ liệu quy mô dân số cùng FPT — một bước tiến cho hạ tầng dữ liệu quốc gia.

Ai kiểm soát dữ liệu tiếng Việt chất lượng cao sẽ có lợi thế quyết định trong việc xây mô hình.

5. Chủ quyền AI và chủ quyền số

“AI chủ quyền” (sovereign AI) là khái niệm trung tâm trong định hướng của Việt Nam: tự chủ về mô hình, dữ liệu và hạ tầng tính toán thay vì phụ thuộc hoàn toàn vào nước ngoài. Năm 2026, Việt Nam nổi lên như một tâm điểm trong chiến lược AI chủ quyền của NVIDIA, với FPT và Viettel cùng tham gia. Viettel AI được xác nhận đang xây ứng dụng AI pháp luật quốc gia trên hạ tầng mô hình mở — một ví dụ điển hình về ứng dụng cần chủ quyền dữ liệu tuyệt đối.

Chủ quyền AI mang ý nghĩa nhiều tầng: bảo vệ dữ liệu công dân, giữ giá trị văn hóa và lịch sử Việt trong tri thức máy, và bảo đảm an ninh cho các ứng dụng nhạy cảm (quốc phòng, pháp luật, y tế). Đây là lý do mô hình nội địa không chỉ là lựa chọn kỹ thuật mà là lựa chọn chiến lược quốc gia.

Kết luận

Từ PhoGPT, VinaLLaMA đến KiLM, các mô hình của Viettel và GreenMind, Việt Nam đã chứng minh năng lực tự xây dựng LLM tiếng Việt cạnh tranh. Con đường phía trước là củng cố dữ liệu tiếng Việt chất lượng cao, đầu tư hạ tầng tính toán, và phát triển nhân lực nghiên cứu cấp cao. Làm chủ tiếng mẹ đẻ trong thế giới AI chính là làm chủ một phần chủ quyền số của quốc gia trong thế kỷ 21.

Nguồn tham khảo