Nguyên nhân Big Tech chưa chú trọng phát triển dữ liệu tiếng Việt và giải pháp từ dự án ViGen

08:04 12/09/2025

Việc xây dựng một cơ sở dữ liệu ngôn ngữ tiếng Việt đầy đủ và chất lượng cao đang là thách thức lớn, khi các tập đoàn công nghệ lớn trên thế giới còn khá dè dặt với thị trường này. Bởi tiếng Việt được xem là một ngôn ngữ phức tạp, ít tài nguyên và chưa được ưu tiên đầu tư tương xứng so với các ngôn ngữ khác. Để thúc đẩy sự phát triển của nền kinh tế số và ứng dụng trí tuệ nhân tạo tại Việt Nam, sự phối hợp giữa khu vực nhà nước và doanh nghiệp công nghệ trong nước cùng các đối tác quốc tế trở nên cần thiết hơn bao giờ hết.

Meta đã bắt tay vào dự án bộ dữ liệu tiếng Việt mang tên ViGen nhằm cải thiện tình trạng thiếu hụt dữ liệu chất lượng cho việc huấn luyện các mô hình AI xử lý tiếng Việt. Theo đại diện của Meta phụ trách khu vực gồm Việt Nam, Lào và Campuchia, dự án được khởi động sau cuộc gặp gỡ giữa lãnh đạo Meta và Bộ trưởng Bộ Khoa học & Công nghệ Việt Nam. Qua đó, có sự cam kết hỗ trợ về công nghệ, tài chính và nguồn nhân lực để xây dựng hệ sinh thái dữ liệu tiếng Việt mở rộng, giúp doanh nghiệp địa phương tận dụng hiệu quả nền tảng này.

Bà Nguyễn Thu Thảo – Giám đốc chính sách công phụ trách thị trường Việt Nam của Meta

Dự án ViGen do Trung tâm Đổi mới sáng tạo Quốc gia phối hợp với Meta tổ chức, cùng sự góp mặt của các đối tác lớn như NVIDIA, Viettel và Quỹ AI for Vietnam. Mục tiêu xuyên suốt của dự án tập trung tạo ra một bộ dữ liệu tiếng Việt bao quát mọi khía cạnh về lịch sử, văn hóa, xã hội lẫn giá trị đạo đức đặc trưng của quốc gia. Điều này sẽ giúp nâng cao khả năng hiểu và xử lý ngôn ngữ tự nhiên của các ứng dụng AI trong nước cũng như quốc tế.

Ngôn ngữ tiếng Việt hiện vẫn nằm ngoài nhóm ưu tiên phát triển ngôn ngữ của nhiều tập đoàn công nghệ do tính đặc thù phức tạp và nguồn tài nguyên hạn chế. Hậu quả là các sản phẩm AI hỗ trợ tiếng Việt thường thiếu sự mượt mà và tự nhiên so với những ngôn ngữ phổ biến khác. Thậm chí, tỷ lệ dữ liệu tiếng Việt trong các mô hình ngôn ngữ lớn chiếm dưới 1%, khiến cho chatbot hay trợ lý ảo gặp khó khăn khi giao tiếp hiệu quả với người dùng bản xứ.

ViGen định hướng phát triển trong vòng ba năm tới (2025 – 2027) tập trung không chỉ vào việc phát triển bộ dữ liệu mà còn xây dựng hệ sinh thái công cụ hỗ trợ cho nhà phát triển, doanh nghiệp cũng như cộng đồng AI trong nước. Các hoạt động như thiết lập tiêu chuẩn đánh giá chất lượng dữ liệu hay tổ chức các cuộc thi hackathon nhằm khuyến khích sáng tạo cũng được đề ra nhằm thúc đẩy nhanh tiến độ phát triển.

Theo kế hoạch, phiên bản thử nghiệm bộ cơ sở dữ liệu sẽ được chính thức công bố vào tháng 10 tới đây. Dự án kỳ vọng trở thành nền tảng cốt lõi giúp nâng cao năng lực ứng dụng trí tuệ nhân tạo xử lý tiếng Việt một cách sâu sắc hơn nữa, phục vụ nhu cầu ngày càng tăng của hơn 100 triệu người dân trong tương lai gần.

Trước đó, đại diện của tổ chức AI for Vietnam nhấn mạnh rằng sứ mệnh của ViGen là đưa các mô hình AI hỗ trợ tiếng Việt trở nên tự nhiên và toàn diện ngay từ bên trong lõi xử lý. Từ đó mở ra tiềm năng to lớn cho việc ứng dụng trí tuệ nhân tạo đa dạng tại thị trường nội địa, góp phần thúc đẩy đổi mới sáng tạo và chuyển đổi số quốc gia.

Sao chổi khổng lồ 3I/ATLAS tiến gần Mặt Trời và mức độ an toàn với Trái Đất

Google hỗ trợ miễn phí gói AI Pro trị giá hơn 10 triệu đồng cho hơn 500 triệu người dùng tại Ấn Độ

NASA giữ bí mật hình ảnh quan trọng về sao chổi liên sao 3I/ATLAS gây tranh cãi

Việt Nam dự kiến cần 200.000 nhân lực blockchain fintech và AI trong ba năm tới để bứt phá kinh tế số

Tên lửa Ragnarok tầm bắn 926km trở thành mối đe dọa mới với mọi hệ thống phòng không hiện đại

Tesla và Apple giúp Samsung Foundry phục hồi mạnh mẽ với loạt đơn hàng khủng

MỚI NHẤT

Soi trận PSG vs Bayern với cuộc đối đầu hấp dẫn giữa nhà vô địch châu Âu và cỗ máy toàn thắng

Cuộc so tài giữa Paris Saint-Germain và Bayern Munich tại vòng phân hạng UEFA Champions League sẽ diễn ra vào lúc 03h00 ngày 5/11/2025 trên sân Parc des Princes, Paris. Trận đấu này hứa hẹn là màn đối đầu nảy lửa giữa...

Antoine Semenyo và Cuộc Cách Mạng Chuyển Nhượng Thầm Lặng của Manchester United

Laura Woods biểu tượng thành công của truyền hình thể thao nước Anh

BLV lão làng của VCS gây tranh cãi dữ dội khi khen Doran tại CKTG 2025

Soi trận Hà Tĩnh vs HAGL Khó khăn cho đội khách trong cuộc chiến tại núi Hồng

Man Utd sẵn sàng chi 60 triệu bảng để sở hữu ngôi sao Antoine Semenyo

Manchester United đang tăng tốc trong cuộc đua chiêu mộ Antoine Semenyo từ Bournemouth sau màn trình diễn xuất sắc của cầu thủ chạy cánh 25 tuổi người Ghana tại Ngoại hạng Anh mùa này. Sự nhanh nhẹn, khả năng dứt điểm chính xác cùng tính đa năng trên hàng công đã khiến bộ phận tuyển trạch của Quỷ Đỏ hoàn...

Xabi Alonso Tiết Lộ Chiến Thuật Bí Mật Ở Valdebebas Trước Cuộc Đụng Độ Liverpool

Trước thềm chuyến làm khách đầy quan trọng tại Anfield, huấn luyện viên Xabi Alonso của Real Madrid đã quyết định không cho đội bóng tập luyện tại sân của Liverpool, trái với truyền thống thường thấy. Thay vào đó, toàn đội được giữ kín ở trung tâm huấn luyện Valdebebas để tránh bị theo dõi bởi hàng trăm camera ghi...

Sự thật về nghi vấn Đình Bắc xảy ra mâu thuẫn với đồng đội U23 Việt Nam

Nguyễn Đình Bắc, cầu thủ đang thi đấu cho Công An Hà Nội, mới đây đã lên tiếng bác bỏ hoàn toàn tin đồn anh xảy ra xích mích với đồng đội Võ Anh Quân trong đội U23 Việt Nam. Sự việc trở thành tâm điểm dư luận sau trận thắng 2-0 của Công An Hà Nội trước PVF-CAND vào tối...

Tottenham vs Kobenhavn Lợi Thế Sân Nhà và Cơ Hội Phục Hồi Ở Champions League

Trận đấu giữa Tottenham và Kobenhavn trở thành điểm nhấn quan trọng trong hành trình chinh phục châu Âu của cả hai đội. Tottenham đang rất cần một chiến thắng để vực dậy tinh thần sau chuỗi trận thất vọng và cải thiện vị trí trên bảng xếp hạng. Lợi thế sân nhà cùng kỷ lục bất bại kéo dài 21...

Juventus đối đầu Sporting là thử thách quan trọng đầu tiên cho Luciano Spalletti

Trận đấu giữa Juventus và Sporting Lisbon tại Allianz đang thu hút sự chú ý lớn khi đây là bài kiểm tra đầu tiên đầy áp lực dành cho HLV Luciano Spalletti trên đấu trường châu Âu. Sau chuỗi trận không thắng kéo dài, chiến thắng mới đây tại Serie A phần nào xua tan căng thẳng nhưng Juventus vẫn chưa...

Soi trận Benfica vs Leverkusen: Mourinho quyết tâm giành chiến thắng quan trọng

Trận đấu giữa Benfica và Bayer Leverkusen tại vòng phân hạng lượt về UEFA Champions League hứa hẹn sẽ rất căng thẳng khi cả hai đội đều đang khát điểm. Cuộc so tài này diễn ra trên sân Estadio da Luz, Lisbon lúc 3 giờ sáng ngày 6/11/2025 theo giờ Việt Nam. Dưới sự dẫn dắt của huấn luyện viên José...

Hà Nội đối mặt áp lực thắng trận khi chạm trán PVF-CAND tại V-League

Trận đấu giữa Hà Nội FC và PVF-CAND tại vòng 10 V-League đang thu hút sự quan tâm lớn khi thầy trò HLV Harry Kewell chịu áp lực nặng nề phải giành trọn 3 điểm. Sau những kết quả thất thường, đội bóng thủ đô đang dần mất đi lợi thế trong cuộc đua vô địch với Ninh Bình và Công...

Anfield Rung Chuyển Khi Slot Đối Đầu Alonso Trong Bài Test Lớn Cho Liverpool

Liverpool đang trải qua giai đoạn đầy thử thách sau chuỗi trận thiếu ổn định tại Ngoại hạng Anh. Dù vừa có chiến thắng 2-0 trước Aston Villa giúp cải thiện chút ít tinh thần, nhưng The Kop mới chỉ giành được đúng 2 thắng lợi trong 8 trận gần đây trên mọi đấu trường. Anfield vẫn giữ vai trò là...

Bài viết liên quan

MỚI NHẤT