Năm 2024 chứng kiến sự bùng nổ về số lượng cũng như chất lượng các mô hình ngôn ngữ lớn (LLM) tiếng Việt, theo báo cáo mới nhất từ nền tảng đánh giá và xếp hạng năng lực mô hình LLM. Với 45 mô hình được ghi nhận trên bảng xếp hạng, hơn 155 tổ chức và cá nhân đã gửi yêu cầu đánh giá, cùng gần 700 lượt tải bộ tiêu chuẩn và hơn 3.700 lần sử dụng để đánh giá mô hình, con số này phản ánh rõ nét xu hướng phát triển mạnh mẽ của lĩnh vực AI tại Việt Nam. Việc mở rộng này không chỉ thể hiện ở lượng mà còn là bước tiến về mặt kỹ năng của các mô hình, từ hiểu biết nền tảng đến khả năng đọc hiểu, hội thoại sâu sắc và suy luận logic tinh vi, sát với cách con người vận hành trí tuệ.
Nhiều đơn vị danh tiếng trong và ngoài nước đã áp dụng nền tảng đánh giá này như trung tâm nghiên cứu công nghệ, doanh nghiệp viễn thông lớn và các trường đại học danh tiếng cả trong nước lẫn quốc tế. Sự hợp tác đa dạng này giúp đảm bảo tính khách quan cũng như mức độ ứng dụng thực tiễn cao cho các bộ tiêu chuẩn được phát triển. Không chỉ hỗ trợ việc so sánh chất lượng giữa các mô hình khác nhau, nền tảng còn đóng vai trò then chốt trong việc định hướng chiến lược phát triển và huấn luyện AI ngày càng chuẩn xác và hiệu quả hơn.
Cùng với sự tăng trưởng về số lượng, chất lượng mô hình LLM tiếng Việt cũng ghi nhận sự tiến bộ vượt bậc. Các nhà phát triển không còn chỉ tập trung vào đào tạo dựa trên kiến thức cơ bản mà đã mở rộng sang các phạm trù nâng cao như hiểu sâu văn bản, giao tiếp tự nhiên hay xử lý vấn đề phức tạp giống con người. Để đáp ứng nhu cầu mở rộng này, một loạt bộ tiêu chuẩn mới được công bố nhằm đánh giá những năng lực phức tạp hơn của LLM đã ra đời.
Trước đây, việc thiếu hụt các bộ tiêu chuẩn chung làm cho nhiều nhóm nghiên cứu phải tự xây dựng công cụ đánh giá riêng biệt. Điều này gây khó khăn trong việc đối chiếu và so sánh chất lượng mô hình với các sản phẩm quốc tế cũng như hạn chế khả năng phát triển đồng bộ của ngành công nghệ AI. Nhằm khắc phục tình trạng này, từ tháng 11 năm 2023, một bộ tiêu chuẩn chung được nghiên cứu và xây dựng bởi đội ngũ chuyên gia hàng đầu đã được cung cấp miễn phí cho cộng đồng nhằm thúc đẩy sự thống nhất trong đánh giá chất lượng.
Bộ tiêu chuẩn chung bao gồm hơn mười nghìn câu hỏi trắc nghiệm trải dài trên gần sáu mươi chủ đề đa dạng với các cấp độ khác nhau. Điều này giúp nhà phát triển dễ dàng tiếp cận phương pháp kiểm tra toàn diện nhằm đánh giá năng lực tổng quát của từng mô hình. Hơn nữa, bảng xếp hạng đi kèm cho phép so sánh trực tiếp hiệu suất của mỗi LLM với các sản phẩm đang có trên thị trường, tạo điều kiện thuận lợi cho việc tối ưu hóa quá trình huấn luyện.
Theo TS. Đặng Trần Thái – Trưởng phòng xử lý ngôn ngữ tự nhiên tại một đơn vị công nghệ nổi bật trong nước, dữ liệu đánh giá tại nền tảng sở hữu tính toàn diện hiếm có giúp đo lường hiệu quả tri thức của các mô hình LLM tiếng Việt một cách chính xác. Ông chia sẻ rằng công cụ này không chỉ là thước đo cho chất lượng nguyên mẫu mà còn góp phần quan trọng vào việc kiểm nghiệm hiệu quả trong quá trình thử nghiệm huấn luyện. Ông nhấn mạnh đây chính là nền tảng thúc đẩy sự phát triển bền vững của AI nói chung và các mô hình ngôn ngữ nói riêng.
Không chỉ vậy, TS. Bạch Hưng Nguyên – kỹ sư trưởng tại một tập đoàn công nghệ đa quốc gia – cũng khẳng định rằng hệ thống đánh giá này rất hữu ích để đo lường hiệu suất hoạt động của LLM trên ngôn ngữ tiếng Việt. Ông kỳ vọng rằng trong tương lai hệ thống sẽ tiếp tục được bổ sung thêm những bộ tiêu chí đa dạng hơn như khả năng suy luận nâng cao, tạo mã nguồn lập trình hay tóm tắt văn bản nhằm gia tăng tính ứng dụng thực tiễn cho các mô hình.
Gần đây, phiên bản cập nhật mới của nền tảng đã đưa ra bộ tiêu chuẩn tiên tiến nhằm mở rộng phạm vi đánh giá ba kỹ năng cốt lõi cần thiết cho một mô hình LLM hiện đại gồm: đọc hiểu sâu sắc qua hàng nghìn câu hỏi phân tích văn bản phức tạp; khả năng suy luận logic thông qua các bài tập yêu cầu tư duy toán học và so sánh; cũng như kỹ năng tương tác linh hoạt qua hàng trăm đoạn hội thoại đa chiều sử dụng kiến thức liên ngành.
Đánh giá năng lực tương tác và suy luận của LLM
Việc nâng cấp này không chỉ giúp các nhà phát triển có cái nhìn toàn diện hơn về điểm mạnh và điểm yếu của từng mô hình mà còn góp phần thúc đẩy sản phẩm cuối cùng mang lại giá trị thiết thực cho người dùng thông qua khả năng ứng dụng đa dạng trong thực tế. Theo ông Châu Thành Đức – Giám đốc Nghiên cứu & Phát triển Trí tuệ nhân tạo tại một tổ chức AI hàng đầu trong nước – việc ra mắt liên tục các bộ tiêu chuẩn mới thể hiện mong muốn đa dạng hóa góc độ đánh giá nhằm đáp ứng tốt hơn nhu cầu đặc thù của tiếng Việt vốn còn ít tài nguyên chuyên biệt so với thế giới.
Hiện nay những bộ tiêu chuẩn mới đã được đăng tải trên trang web chính thức để phục vụ nhu cầu đánh giá từ cộng đồng nghiên cứu cá nhân hay tổ chức. Nền tảng này được xây dựng bởi sự phối hợp chặt chẽ giữa tổ chức AI hàng đầu Việt Nam cùng viện khoa học công nghệ tiên tiến Nhật Bản, cung cấp miễn phí hỗ trợ đồng hành cùng sự phát triển cộng đồng AI nội địa.
Nền tảng VMLU hỗ trợ cộng đồng AI Việt Nam
Với mục tiêu góp phần nâng cao năng lực làm chủ công nghệ mới cho người Việt Nam, nền tảng đánh giá này không chỉ thúc đẩy sự phát triển liên tục của trí tuệ nhân tạo mà còn đóng vai trò quan trọng trong cuộc cách mạng chuyển đổi số quốc gia đầy tham vọng đang được thúc đẩy mạnh mẽ hiện nay.