Việc xây dựng một cơ sở dữ liệu ngôn ngữ tiếng Việt đầy đủ và chất lượng cao đang là thách thức lớn, khi các tập đoàn công nghệ lớn trên thế giới còn khá dè dặt với thị trường này. Bởi tiếng Việt được xem là một ngôn ngữ phức tạp, ít tài nguyên và chưa được ưu tiên đầu tư tương xứng so với các ngôn ngữ khác. Để thúc đẩy sự phát triển của nền kinh tế số và ứng dụng trí tuệ nhân tạo tại Việt Nam, sự phối hợp giữa khu vực nhà nước và doanh nghiệp công nghệ trong nước cùng các đối tác quốc tế trở nên cần thiết hơn bao giờ hết.
Meta đã bắt tay vào dự án bộ dữ liệu tiếng Việt mang tên ViGen nhằm cải thiện tình trạng thiếu hụt dữ liệu chất lượng cho việc huấn luyện các mô hình AI xử lý tiếng Việt. Theo đại diện của Meta phụ trách khu vực gồm Việt Nam, Lào và Campuchia, dự án được khởi động sau cuộc gặp gỡ giữa lãnh đạo Meta và Bộ trưởng Bộ Khoa học & Công nghệ Việt Nam. Qua đó, có sự cam kết hỗ trợ về công nghệ, tài chính và nguồn nhân lực để xây dựng hệ sinh thái dữ liệu tiếng Việt mở rộng, giúp doanh nghiệp địa phương tận dụng hiệu quả nền tảng này.
Bà Nguyễn Thu Thảo – Giám đốc chính sách công phụ trách thị trường Việt Nam của Meta
Dự án ViGen do Trung tâm Đổi mới sáng tạo Quốc gia phối hợp với Meta tổ chức, cùng sự góp mặt của các đối tác lớn như NVIDIA, Viettel và Quỹ AI for Vietnam. Mục tiêu xuyên suốt của dự án tập trung tạo ra một bộ dữ liệu tiếng Việt bao quát mọi khía cạnh về lịch sử, văn hóa, xã hội lẫn giá trị đạo đức đặc trưng của quốc gia. Điều này sẽ giúp nâng cao khả năng hiểu và xử lý ngôn ngữ tự nhiên của các ứng dụng AI trong nước cũng như quốc tế.
Ngôn ngữ tiếng Việt hiện vẫn nằm ngoài nhóm ưu tiên phát triển ngôn ngữ của nhiều tập đoàn công nghệ do tính đặc thù phức tạp và nguồn tài nguyên hạn chế. Hậu quả là các sản phẩm AI hỗ trợ tiếng Việt thường thiếu sự mượt mà và tự nhiên so với những ngôn ngữ phổ biến khác. Thậm chí, tỷ lệ dữ liệu tiếng Việt trong các mô hình ngôn ngữ lớn chiếm dưới 1%, khiến cho chatbot hay trợ lý ảo gặp khó khăn khi giao tiếp hiệu quả với người dùng bản xứ.
ViGen định hướng phát triển trong vòng ba năm tới (2025 – 2027) tập trung không chỉ vào việc phát triển bộ dữ liệu mà còn xây dựng hệ sinh thái công cụ hỗ trợ cho nhà phát triển, doanh nghiệp cũng như cộng đồng AI trong nước. Các hoạt động như thiết lập tiêu chuẩn đánh giá chất lượng dữ liệu hay tổ chức các cuộc thi hackathon nhằm khuyến khích sáng tạo cũng được đề ra nhằm thúc đẩy nhanh tiến độ phát triển.
Theo kế hoạch, phiên bản thử nghiệm bộ cơ sở dữ liệu sẽ được chính thức công bố vào tháng 10 tới đây. Dự án kỳ vọng trở thành nền tảng cốt lõi giúp nâng cao năng lực ứng dụng trí tuệ nhân tạo xử lý tiếng Việt một cách sâu sắc hơn nữa, phục vụ nhu cầu ngày càng tăng của hơn 100 triệu người dân trong tương lai gần.
Trước đó, đại diện của tổ chức AI for Vietnam nhấn mạnh rằng sứ mệnh của ViGen là đưa các mô hình AI hỗ trợ tiếng Việt trở nên tự nhiên và toàn diện ngay từ bên trong lõi xử lý. Từ đó mở ra tiềm năng to lớn cho việc ứng dụng trí tuệ nhân tạo đa dạng tại thị trường nội địa, góp phần thúc đẩy đổi mới sáng tạo và chuyển đổi số quốc gia.