Việt Nam ra mắt bộ dữ liệu AI tiếng Việt chất lượng tương đương sinh viên tốt nghiệp loại giỏi

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo (AI) trên toàn thế giới, Việt Nam vừa chính thức giới thiệu phiên bản thử nghiệm đầu tiên của nền tảng ViGen – kết quả hợp tác giữa Trung tâm Đổi mới Sáng tạo Quốc gia (NIC), một tập đoàn công nghệ quốc tế và tổ chức AI for Vietnam. Dự án này, khởi động từ tháng 3/2025, đã thu hút sự tham gia của nhiều đối tác lớn trong và ngoài nước nhằm xây dựng bộ dữ liệu tiếng Việt mã nguồn mở, có chất lượng cao phục vụ cho các mô hình ngôn ngữ lớn (LLM). Mục tiêu là giúp các hệ thống AI hiểu sâu sắc hơn về văn hóa, ngôn ngữ cũng như xã hội Việt Nam.

Ngay trong giai đoạn đầu phát triển, ViGen đã ghi dấu ấn với việc hoàn thành Primer 1.0 – bộ dữ liệu tiền huấn luyện tiếng Việt mở quy mô lớn nhất từ trước tới nay. Bộ dữ liệu này bao gồm 50 tỷ token được tuyển chọn kỹ lưỡng từ tổng cộng hơn 150 tỷ token thô, trải dài từ kiến thức bậc mầm non đến trình độ đại học. Nhờ đó, các mô hình AI được huấn luyện trên Primer 1.0 có khả năng thể hiện trình độ kiến thức và tư duy tương đương với một sinh viên tốt nghiệp đại học loại giỏi, vượt xa mức thông thường ở nhiều dự án khác.

Bộ dữ liệu Primer 1.0

Primer 1.0 là bộ dữ liệu tiền huấn luyện tiếng Việt mở lớn nhất từ trước đến nay

Song song với Primer 1.0, ViGen còn giới thiệu năm khung đánh giá đa dạng và toàn diện để đo lường năng lực của các mô hình AI trên nhiều lĩnh vực khác nhau như kiến thức chung, tư duy logic, lập trình, cũng như khả năng hiểu biết về văn hóa và ngôn ngữ Việt Nam. Với hơn 10.000 mẫu kiểm tra, các khung đánh giá này đảm bảo đánh giá chính xác và khách quan về hiệu suất của AI.

Nền tảng ViGen bản beta được thiết kế như một không gian mở dành cho cộng đồng người dùng Việt Nam. Người dân có thể đăng nhập bằng VNeID để đóng góp dữ liệu dưới nhiều dạng thức như văn bản, giọng nói hay video. Đặc biệt, hệ thống tích hợp cơ chế thi đua – khen thưởng nhằm kích thích sự tham gia tích cực từ cộng đồng, tạo nên một vòng quay xây dựng dữ liệu sinh động và hiệu quả.

Ông Trần Việt Hùng – nhà sáng lập tổ chức AI for Vietnam – nhấn mạnh rằng xây dựng bộ dữ liệu từ đầu sẽ rất chậm so với các quốc gia đã có sẵn nguồn lực lớn đầu tư. Vì vậy, dự án ViGen lựa chọn phương án huy động sức mạnh toàn dân để cùng nhau đóng góp dữ liệu. Với số lượng người nói tiếng Việt lên đến khoảng 100 triệu người, dự án kỳ vọng tốc độ thu thập và hoàn thiện dữ liệu sẽ rất nhanh chóng và đây cũng là một sáng kiến độc đáo trên toàn cầu.

Phía đại diện tập đoàn công nghệ quốc tế tham gia dự án cho biết sự ra mắt nền tảng ViGen đánh dấu bước ngoặt quan trọng trong việc phát triển AI mã nguồn mở tại Việt Nam. Điều này không những hỗ trợ các nhà nghiên cứu và doanh nghiệp địa phương xây dựng những giải pháp thực sự am hiểu văn hóa và giá trị của đất nước mà còn tạo cơ hội để Việt Nam đóng góp tiếng nói và vị thế trên bản đồ AI toàn cầu.

Phó Giám đốc NIC Võ Xuân Hoài cũng khẳng định vai trò then chốt của hợp tác công – tư trong việc thúc đẩy mục tiêu nghiên cứu khoa học và đổi mới sáng tạo quốc gia thông qua dự án ViGen. Các bên không chỉ xây dựng nền tảng công nghệ mà còn đặt nền móng cho tăng trưởng kinh tế bền vững dựa trên trí tuệ nhân tạo.

Điểm nổi bật nhất của ViGen là tính minh bạch và tính cộng đồng cao. Người dân có thể dễ dàng tải lên dữ liệu cá nhân vào hệ thống để bổ sung cho kho dữ liệu chung. Toàn bộ thông tin sau đó được xử lý tỉ mỉ để lọc ra những phần phù hợp cho việc huấn luyện AI. Những người đóng góp không chỉ được ghi nhận mà còn có thể nhận thưởng, biến quá trình xây dựng dữ liệu vốn khô khan trở thành hoạt động tương tác hấp dẫn và vui vẻ.

Theo kế hoạch phát triển ba năm tới, ViGen sẽ tiếp tục nâng cấp và mở rộng bộ dữ liệu bằng cách bổ sung thêm các tập tinh chỉnh chuyên sâu vào năm 2026, đồng thời cung cấp những công cụ hỗ trợ dành cho lập trình viên cũng như tổ chức các cuộc thi AI quy mô quốc gia. Đến năm 2027, dự án sẽ cập nhật liên tục nguồn dữ liệu và phát triển thêm các công cụ tiên tiến nhằm ứng dụng rộng rãi trí tuệ nhân tạo trong doanh nghiệp.

Sự phối hợp chặt chẽ giữa doanh nghiệp, viện nghiên cứu, trường đại học cùng cộng đồng người dân giúp ViGen trở thành nền tảng thiết thực đưa AI ngày càng gần hơn với cuộc sống hàng ngày của người Việt. Lãnh đạo tập đoàn quốc tế tham gia phát biểu kỳ vọng ViGen sẽ là hạt nhân tạo nên hệ sinh thái AI riêng biệt dành cho Việt Nam; thúc đẩy sự hợp tác nội địa, sản sinh các giải pháp hiệu quả do người Việt phát triển và góp phần quan trọng vào tăng trưởng kinh tế khu vực.

MỚI NHẤT

Martinelli tin tưởng Viktor Gyokeres có thể ghi 40 bàn mỗi mùa cho Arsenal

Tiền đạo Gabriel Martinelli vừa bày tỏ niềm tin mãnh liệt vào khả năng của đồng đội Viktor Gyokeres tại Arsenal, kỳ vọng chân sút người Thụy Điển sẽ đạt cột mốc 40 bàn thắng mỗi mùa. Mặc dù Gyokeres chưa thực...

Hargreaves đề xuất chiến thuật mới giúp Bruno Fernandes tỏa sáng cùng Mbeumo đá cắm cho Manchester United

Manchester United đang trải qua khởi đầu mùa giải 2025/26 đầy khó khăn dưới sự dẫn dắt của HLV Ruben Amorim. Sau sáu vòng đấu tại Ngoại hạng Anh, Quỷ đỏ chỉ giành được hai chiến thắng và vẫn chưa thể tìm ra lối chơi hiệu quả để duy trì phong độ ổn định. Từ khi tiếp quản chiếc ghế nóng...

Mô hình AI càng phát triển càng đòi hỏi bộ tiêu chuẩn đánh giá năng lực ngày càng phức tạp

Năm 2024 chứng kiến sự bùng nổ về số lượng cũng như chất lượng các mô hình ngôn ngữ lớn (LLM) tiếng Việt, theo báo cáo mới nhất từ nền tảng đánh giá và xếp hạng năng lực mô hình LLM. Với 45 mô hình được ghi nhận trên bảng xếp hạng, hơn 155 tổ chức và cá nhân đã gửi...

Soi trận Chelsea vs Liverpool Thiệt đơn thiệt kép tại Stamford Bridge

Trận cầu tâm điểm Ngoại hạng Anh giữa Chelsea và Liverpool sẽ diễn ra lúc 23h30 ngày 4/10 trên sân Stamford Bridge, London. Đây là cuộc đối đầu được chú ý khi cả hai đội đều đang trải qua giai đoạn phong độ phập phù. Chelsea với sự dẫn dắt của HLV Enzo Maresca vẫn chưa tìm thấy sự ổn định...

Ba Đội Bóng Nổi Bật Cho Chức Vô Địch Ngoại Hạng Anh Mùa Này

Ngoại hạng Anh mùa giải năm nay chứng kiến cuộc đua hấp dẫn giữa ba đội bóng hàng đầu đang thể hiện phong độ ổn định và quyết tâm cao nhất cho ngôi vương. Liverpool, Arsenal và Manchester City nổi lên như những ứng cử viên sáng giá nhờ lối chơi đa dạng và lực lượng đồng đều. Mỗi đội đều...

Vitinha và Ramos phản pháo Barcelona sau chiến thắng nghẹt thở tại Champions League

Trận đấu giữa PSG và Barcelona tại Catalunya đã khép lại với chiến thắng đầy kịch tính dành cho đội bóng nước Pháp. Dù thiếu vắng nhiều trụ cột, PSG vẫn xuất sắc ghi bàn quyết định ở phút 90 do công của Goncalo Ramos, qua đó giành chiến thắng 2-1 trước Barcelona. Kết quả này không chỉ mang về 3...

Nỗi buồn của Man United với 328 triệu bảng đầu tư thất thoát không tưởng

Man United đang phải đối mặt với một thực trạng đáng lo ngại khi số tiền lên đến 328 triệu bảng mà họ từng chi ra cho các cầu thủ giờ đây lại trở thành khoản đầu tư bị bỏ phí. Những ngôi sao như Marcus Rashford, Rasmus Hojlund hay Antony đã tỏa sáng rực rỡ khi rời khỏi Old Trafford...

Nhìn lại quyết định của Forest khi tin dùng Ange Postecoglou và hệ lụy hiện tại

Nottingham Forest đang đối mặt với cuộc khủng hoảng lớn dưới thời HLV Ange Postecoglou, người được biết đến với phong cách bóng đá tấn công mãnh liệt. Tuy nhiên, sự kỳ vọng ban đầu nhanh chóng chuyển thành sự hoài nghi và chỉ trích mạnh mẽ từ người hâm mộ cũng như giới chuyên môn. Trận thua 2-3 trước Midtjylland...

Juve dưới thời Tudor vẫn loay hoay tìm kiếm phong cách chơi đặc trưng

Juventus dưới sự dẫn dắt của HLV Igor Tudor vẫn chưa thể hiện rõ nét phong cách thi đấu riêng biệt sau một khoảng thời gian dài thử nghiệm. Mặc dù được giữ lại làm huấn luyện viên chính thức với mục tiêu tối thiểu là góp mặt tại Champions League, đội bóng thành Turin vẫn đang ở trong giai đoạn...