Việt Nam ra mắt bộ dữ liệu AI tiếng Việt chất lượng tương đương sinh viên tốt nghiệp loại giỏi

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo (AI) trên toàn thế giới, Việt Nam vừa chính thức giới thiệu phiên bản thử nghiệm đầu tiên của nền tảng ViGen – kết quả hợp tác giữa Trung tâm Đổi mới Sáng tạo Quốc gia (NIC), một tập đoàn công nghệ quốc tế và tổ chức AI for Vietnam. Dự án này, khởi động từ tháng 3/2025, đã thu hút sự tham gia của nhiều đối tác lớn trong và ngoài nước nhằm xây dựng bộ dữ liệu tiếng Việt mã nguồn mở, có chất lượng cao phục vụ cho các mô hình ngôn ngữ lớn (LLM). Mục tiêu là giúp các hệ thống AI hiểu sâu sắc hơn về văn hóa, ngôn ngữ cũng như xã hội Việt Nam.

Ngay trong giai đoạn đầu phát triển, ViGen đã ghi dấu ấn với việc hoàn thành Primer 1.0 – bộ dữ liệu tiền huấn luyện tiếng Việt mở quy mô lớn nhất từ trước tới nay. Bộ dữ liệu này bao gồm 50 tỷ token được tuyển chọn kỹ lưỡng từ tổng cộng hơn 150 tỷ token thô, trải dài từ kiến thức bậc mầm non đến trình độ đại học. Nhờ đó, các mô hình AI được huấn luyện trên Primer 1.0 có khả năng thể hiện trình độ kiến thức và tư duy tương đương với một sinh viên tốt nghiệp đại học loại giỏi, vượt xa mức thông thường ở nhiều dự án khác.

Bộ dữ liệu Primer 1.0

Primer 1.0 là bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay

Song song với Primer 1.0, ViGen còn giới thiệu năm khung đánh giá đa dạng và toàn diện để đo lường năng lực của các mô hình AI trên nhiều lĩnh vực khác nhau như kiến thức chung, tư duy logic, lập trình, cũng như khả năng hiểu biết về văn hóa và ngôn ngữ Việt Nam. Với hơn 10.000 mẫu kiểm tra, các khung đánh giá này đảm bảo đánh giá chính xác và khách quan về hiệu suất của AI.

Nền tảng ViGen bản beta được thiết kế như một không gian mở dành cho cộng đồng người dùng Việt Nam. Người dân có thể đăng nhập bằng VNeID để đóng góp dữ liệu dưới nhiều dạng thức như văn bản, giọng nói hay video. Đặc biệt, hệ thống tích hợp cơ chế thi đua – khen thưởng nhằm kích thích sự tham gia tích cực từ cộng đồng, tạo nên một vòng quay xây dựng dữ liệu sinh động và hiệu quả.

Ông Trần Việt Hùng – nhà sáng lập tổ chức AI for Vietnam – nhấn mạnh rằng xây dựng bộ dữ liệu từ đầu sẽ rất chậm so với các quốc gia đã có sẵn nguồn lực lớn đầu tư. Vì vậy, dự án ViGen lựa chọn phương án huy động sức mạnh toàn dân để cùng nhau đóng góp dữ liệu. Với số lượng người nói tiếng Việt lên đến khoảng 100 triệu người, dự án kỳ vọng tốc độ thu thập và hoàn thiện dữ liệu sẽ rất nhanh chóng và đây cũng là một sáng kiến độc đáo trên toàn cầu.

Phía đại diện tập đoàn công nghệ quốc tế tham gia dự án cho biết sự ra mắt nền tảng ViGen đánh dấu bước ngoặt quan trọng trong việc phát triển AI mã nguồn mở tại Việt Nam. Điều này không những hỗ trợ các nhà nghiên cứu và doanh nghiệp địa phương xây dựng những giải pháp thực sự am hiểu văn hóa và giá trị của đất nước mà còn tạo cơ hội để Việt Nam đóng góp tiếng nói và vị thế trên bản đồ AI toàn cầu.

Phó Giám đốc NIC Võ Xuân Hoài cũng khẳng định vai trò then chốt của hợp tác công – tư trong việc thúc đẩy mục tiêu nghiên cứu khoa học và đổi mới sáng tạo quốc gia thông qua dự án ViGen. Các bên không chỉ xây dựng nền tảng công nghệ mà còn đặt nền móng cho tăng trưởng kinh tế bền vững dựa trên trí tuệ nhân tạo.

Điểm nổi bật nhất của ViGen là tính minh bạch và tính cộng đồng cao. Người dân có thể dễ dàng tải lên dữ liệu cá nhân vào hệ thống để bổ sung cho kho dữ liệu chung. Toàn bộ thông tin sau đó được xử lý tỉ mỉ để lọc ra những phần phù hợp cho việc huấn luyện AI. Những người đóng góp không chỉ được ghi nhận mà còn có thể nhận thưởng, biến quá trình xây dựng dữ liệu vốn khô khan trở thành hoạt động tương tác hấp dẫn và vui vẻ.

Theo kế hoạch phát triển ba năm tới, ViGen sẽ tiếp tục nâng cấp và mở rộng bộ dữ liệu bằng cách bổ sung thêm các tập tinh chỉnh chuyên sâu vào năm 2026, đồng thời cung cấp những công cụ hỗ trợ dành cho lập trình viên cũng như tổ chức các cuộc thi AI quy mô quốc gia. Đến năm 2027, dự án sẽ cập nhật liên tục nguồn dữ liệu và phát triển thêm các công cụ tiên tiến nhằm ứng dụng rộng rãi trí tuệ nhân tạo trong doanh nghiệp.

Sự phối hợp chặt chẽ giữa doanh nghiệp, viện nghiên cứu, trường đại học cùng cộng đồng người dân giúp ViGen trở thành nền tảng thiết thực đưa AI ngày càng gần hơn với cuộc sống hàng ngày của người Việt. Lãnh đạo tập đoàn quốc tế tham gia phát biểu kỳ vọng ViGen sẽ là hạt nhân tạo nên hệ sinh thái AI riêng biệt dành cho Việt Nam; thúc đẩy sự hợp tác nội địa, sản sinh các giải pháp hiệu quả do người Việt phát triển và góp phần quan trọng vào tăng trưởng kinh tế khu vực.

MỚI NHẤT

Soi trận Real Madrid vs Villarreal Bài Toán Khó Đặt Ra Cho HLV Xabi Alonso tại Santiago Bernabeu

Real Madrid sẽ trở lại sân nhà Santiago Bernabeu tiếp đón Villarreal trong khuôn khổ vòng 8 La Liga vào lúc 02h00 ngày 5/10/2025. Trận đấu được xem là thử thách không nhỏ với HLV Xabi Alonso khi đội bóng vừa trải...

Here we go Man Utd chính thức ký hợp đồng với tài năng trẻ Cristian Orozco

Manchester United vừa hoàn tất việc ký kết hợp đồng với ngôi sao trẻ 17 tuổi người Colombia, Cristian Orozco. Thương vụ này được xác nhận với phí chuyển nhượng khoảng 1 triệu USD từ CLB Fortaleza CEIF. Hợp đồng sẽ có hiệu lực chính thức từ mùa hè năm 2026 khi cầu thủ tròn 18 tuổi. Đội ngũ pháp lý...

XSTV 3/10 Cập Nhật Kết Quả Xổ Số Trà Vinh Hôm Nay Ngày 3 Tháng 10 Năm 2025

Xổ số Trà Vinh (XSTV) ngày 3/10/2025 đã chính thức quay thưởng lúc 16h20 thứ Sáu, mang đến thông tin kết quả nhanh và chính xác cho người chơi. Mỗi tuần, công ty xổ số kiến thiết Trà Vinh đều tổ chức quay số mở thưởng vào khung giờ cố định nhằm đảm bảo sự minh bạch và thuận tiện cho...

Viettel IDC chính thức trở thành Pinnacle Partner của Broadcom khẳng định vị thế công nghệ hàng đầu

Viettel IDC vừa được công nhận là nhà cung cấp dịch vụ đám mây thuộc nhóm VMware Cloud Service Provider (VCSP) hạng Pinnacle Partner – mức cao nhất trong Chương trình Broadcom Advantage Partner tại thị trường Đông Nam Á. Việc đạt được vị trí này đánh dấu bước tiến quan trọng giúp Viettel IDC nâng cao năng lực hỗ trợ...

Những trận cầu bất tận với tỷ số hòa 4-4 làm nên lịch sử Champions League

Tại đấu trường UEFA Champions League danh giá, những trận hòa có tỷ số 4-4 luôn là hiện tượng hiếm gặp và đầy cảm xúc. Chỉ vỏn vẹn 5 lần trong lịch sử giải đấu, người hâm mộ được chứng kiến màn rượt đuổi bàn thắng nghẹt thở, nơi mà mọi toan tính chiến thuật phải nhường chỗ cho sự bùng...

Arsenal xây dựng chiều sâu đội hình tạo bước ngoặt chinh phục các danh hiệu mùa 2025

Arsenal đang bước vào mùa giải 2025 với một lợi thế lớn nhờ chiều sâu đội hình được củng cố vững chắc, mở ra cơ hội mới cho tham vọng giành các danh hiệu. Không còn phụ thuộc quá nhiều vào những ngôi sao chủ lực như trước đây, đội bóng thành London giờ đây sở hữu nhiều phương án thay...

Jadon Sancho đang gặp thử thách lớn tại Aston Villa và tương lai bấp bênh

Aston Villa tiếp tục thể hiện phong độ ấn tượng khi giành chiến thắng 2-0 trước Feyenoord tại Europa League vào rạng sáng ngày 3/10, củng cố vị thế của đội bóng Ngoại hạng Anh ở sân chơi châu lục. Tuy nhiên, điểm nhấn của trận đấu không phải là kết quả mà lại nằm ở sự vắng mặt đáng chú...

PSG vượt khó giành chiến thắng 2-1 trước Barcelona, Luis Enrique đánh giá cao tinh thần thi đấu của đội

Paris Saint-Germain đã có màn trình diễn xuất sắc để đánh bại Barcelona với tỷ số 2-1 ngay trên sân Montjuic trong khuôn khổ vòng phân hạng Champions League. Đây là chiến thắng thứ hai liên tiếp của PSG trước đội bóng xứ Catalan dưới sự dẫn dắt của HLV Luis Enrique, nối tiếp thành công tại tứ kết mùa giải...

Joe Cole cảnh báo Arsenal về sức ép lớn từ người hâm mộ có thể chặn đứng tham vọng

Joe Cole, cựu cầu thủ danh tiếng của Chelsea, mới đây đã đưa ra nhận định về những thách thức mà Arsenal sẽ phải đối mặt trong mùa giải 2025-26. Ông đánh giá đội hình hiện tại của Pháo thủ sau kỳ chuyển nhượng vừa qua đã được nâng cấp rõ rệt, giúp họ trở thành ứng viên nặng ký cho...