Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo (AI) trên toàn thế giới, Việt Nam vừa chính thức giới thiệu phiên bản thử nghiệm đầu tiên của nền tảng ViGen – kết quả hợp tác giữa Trung tâm Đổi mới Sáng tạo Quốc gia (NIC), một tập đoàn công nghệ quốc tế và tổ chức AI for Vietnam. Dự án này, khởi động từ tháng 3/2025, đã thu hút sự tham gia của nhiều đối tác lớn trong và ngoài nước nhằm xây dựng bộ dữ liệu tiếng Việt mã nguồn mở, có chất lượng cao phục vụ cho các mô hình ngôn ngữ lớn (LLM). Mục tiêu là giúp các hệ thống AI hiểu sâu sắc hơn về văn hóa, ngôn ngữ cũng như xã hội Việt Nam.
Ngay trong giai đoạn đầu phát triển, ViGen đã ghi dấu ấn với việc hoàn thành Primer 1.0 – bộ dữ liệu tiền huấn luyện tiếng Việt mở quy mô lớn nhất từ trước tới nay. Bộ dữ liệu này bao gồm 50 tỷ token được tuyển chọn kỹ lưỡng từ tổng cộng hơn 150 tỷ token thô, trải dài từ kiến thức bậc mầm non đến trình độ đại học. Nhờ đó, các mô hình AI được huấn luyện trên Primer 1.0 có khả năng thể hiện trình độ kiến thức và tư duy tương đương với một sinh viên tốt nghiệp đại học loại giỏi, vượt xa mức thông thường ở nhiều dự án khác.
Primer 1.0 là bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay
Song song với Primer 1.0, ViGen còn giới thiệu năm khung đánh giá đa dạng và toàn diện để đo lường năng lực của các mô hình AI trên nhiều lĩnh vực khác nhau như kiến thức chung, tư duy logic, lập trình, cũng như khả năng hiểu biết về văn hóa và ngôn ngữ Việt Nam. Với hơn 10.000 mẫu kiểm tra, các khung đánh giá này đảm bảo đánh giá chính xác và khách quan về hiệu suất của AI.
Nền tảng ViGen bản beta được thiết kế như một không gian mở dành cho cộng đồng người dùng Việt Nam. Người dân có thể đăng nhập bằng VNeID để đóng góp dữ liệu dưới nhiều dạng thức như văn bản, giọng nói hay video. Đặc biệt, hệ thống tích hợp cơ chế thi đua – khen thưởng nhằm kích thích sự tham gia tích cực từ cộng đồng, tạo nên một vòng quay xây dựng dữ liệu sinh động và hiệu quả.
Ông Trần Việt Hùng – nhà sáng lập tổ chức AI for Vietnam – nhấn mạnh rằng xây dựng bộ dữ liệu từ đầu sẽ rất chậm so với các quốc gia đã có sẵn nguồn lực lớn đầu tư. Vì vậy, dự án ViGen lựa chọn phương án huy động sức mạnh toàn dân để cùng nhau đóng góp dữ liệu. Với số lượng người nói tiếng Việt lên đến khoảng 100 triệu người, dự án kỳ vọng tốc độ thu thập và hoàn thiện dữ liệu sẽ rất nhanh chóng và đây cũng là một sáng kiến độc đáo trên toàn cầu.
Phía đại diện tập đoàn công nghệ quốc tế tham gia dự án cho biết sự ra mắt nền tảng ViGen đánh dấu bước ngoặt quan trọng trong việc phát triển AI mã nguồn mở tại Việt Nam. Điều này không những hỗ trợ các nhà nghiên cứu và doanh nghiệp địa phương xây dựng những giải pháp thực sự am hiểu văn hóa và giá trị của đất nước mà còn tạo cơ hội để Việt Nam đóng góp tiếng nói và vị thế trên bản đồ AI toàn cầu.
Phó Giám đốc NIC Võ Xuân Hoài cũng khẳng định vai trò then chốt của hợp tác công – tư trong việc thúc đẩy mục tiêu nghiên cứu khoa học và đổi mới sáng tạo quốc gia thông qua dự án ViGen. Các bên không chỉ xây dựng nền tảng công nghệ mà còn đặt nền móng cho tăng trưởng kinh tế bền vững dựa trên trí tuệ nhân tạo.
Điểm nổi bật nhất của ViGen là tính minh bạch và tính cộng đồng cao. Người dân có thể dễ dàng tải lên dữ liệu cá nhân vào hệ thống để bổ sung cho kho dữ liệu chung. Toàn bộ thông tin sau đó được xử lý tỉ mỉ để lọc ra những phần phù hợp cho việc huấn luyện AI. Những người đóng góp không chỉ được ghi nhận mà còn có thể nhận thưởng, biến quá trình xây dựng dữ liệu vốn khô khan trở thành hoạt động tương tác hấp dẫn và vui vẻ.
Theo kế hoạch phát triển ba năm tới, ViGen sẽ tiếp tục nâng cấp và mở rộng bộ dữ liệu bằng cách bổ sung thêm các tập tinh chỉnh chuyên sâu vào năm 2026, đồng thời cung cấp những công cụ hỗ trợ dành cho lập trình viên cũng như tổ chức các cuộc thi AI quy mô quốc gia. Đến năm 2027, dự án sẽ cập nhật liên tục nguồn dữ liệu và phát triển thêm các công cụ tiên tiến nhằm ứng dụng rộng rãi trí tuệ nhân tạo trong doanh nghiệp.
Sự phối hợp chặt chẽ giữa doanh nghiệp, viện nghiên cứu, trường đại học cùng cộng đồng người dân giúp ViGen trở thành nền tảng thiết thực đưa AI ngày càng gần hơn với cuộc sống hàng ngày của người Việt. Lãnh đạo tập đoàn quốc tế tham gia phát biểu kỳ vọng ViGen sẽ là hạt nhân tạo nên hệ sinh thái AI riêng biệt dành cho Việt Nam; thúc đẩy sự hợp tác nội địa, sản sinh các giải pháp hiệu quả do người Việt phát triển và góp phần quan trọng vào tăng trưởng kinh tế khu vực.