Xây dựng nền tảng cho AI tại Việt Nam với dữ liệu tiếng Việt mã nguồn mở
Sứ mệnh của VIC 2025 - dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt Nam.
Ngày 14/3, Meta, phối hợp cùng Trung tâm Đổi mới sáng tạo (ĐMST) Quốc gia (NIC) trực thuộc Bộ Tài chính đã chính thức khởi động Chương trình Thách thức ĐMST 2025, đánh dấu năm triển khai thứ ba của chương trình với mục tiêu thúc đẩy phát triển lĩnh vực trí tuệ nhân tạo (AI) tại Việt Nam. Từ năm 2022, mỗi năm chương trình thu hút hơn 750 giải pháp từ trên 20 quốc gia, vùng lãnh thổ tham gia.
Chia sẻ về mục tiêu Chương trình, Phó Thủ tướng Chính phủ Nguyễn Chí Dũng cho biết: "Thách thức ĐMST Việt Nam là chương trình chiến lược để tìm kiếm các giải pháp ĐMST trên toàn thế giới nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Để chương trình thành công cần sự hợp tác giữa khu vực công, khu vực tư nhân và các đối tác trong và ngoài nước chung tay hình thành, thử nghiệm và thực thi các sáng kiến ĐMST vì một Việt Nam thịnh vượng".
Việt Nam thúc đẩy phát triển AI tiếng Việt với dự án ViGen
Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình ngôn ngữ lớn (LLMs), giúp các mô hình AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt.
Họp báo chính thức khởi động Chương trình Thách thức ĐMST 2025
Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.
GS. Yann LeCun, Phó Chủ tịch, Kiến trúc sư trưởng về AI của Tập đoàn Meta, người được mệnh danh là một trong những cha đẻ của AI, đánh giá: “Dự án ViGen và Thử thách ĐMST Việt Nam không chỉ nhằm thúc đẩy công nghệ, mà còn hướng tới xây dựng một tương lai AI toàn diện, tôn vinh và tích hợp di sản văn hóa và ngôn ngữ độc đáo của Việt Nam”.
Sứ mệnh của VIC 2025 - dự án ViGen là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt Nam. ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức ở Việt Nam, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cách địa phương và có trách nhiệm.
Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, NIC và tổ chức “AI for Vietnam”. Trong đó, NIC đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia của Việt Nam. AI for Vietnam là đối tác triển khai dự án với những hỗ trợ về kỹ thuật và tài chính từ Tập đoàn Meta. Các đối tác chiến lược bao gồm NVIDIA, Viettel, và Viện Hàn lâm Khoa học và Công nghệ (KH&CN) Việt Nam.
Nhằm hỗ trợ dự án, Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở từ chương trình AI và Dữ liệu vì Lợi ích Cộng đồng của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.
Tại sự kiện, ông Sarim Aziz, Giám đốc Chính sách công, Tập đoàn Meta, cho rằng để phát triển công nghệ AI, chúng ta cần đảm bảo nó được tiến bộ một cách toàn diện, bao gồm tất cả mọi người, đặc biệt là sự đa dạng văn hóa phong phú và đa dạng ngôn ngữ độc đáo mà Việt Nam đang sở hữu.
Ông Sarim Aziz: Meta sẽ là đơn vị đầu tiên đóng góp cho dự án này bằng việc cung cấp hơn các bộ dữ liệu liên quan đến Việt Nam
“AI sẽ không thể hoàn thiện nếu chúng ta không cùng nhau xây dựng nó. Tất cả các nghiên cứu đều chỉ ra rằng các mô hình AI chung thường không hoạt động tốt bằng những mô hình được huấn luyện đúng cách, được tinh chỉnh với các bộ dữ liệu phù hợp”, ông Sarim Aziz nhấn mạnh.
Được biết, Meta sẽ là đơn vị đầu tiên đóng góp cho dự án này bằng việc cung cấp hơn các bộ dữ liệu liên quan đến Việt Nam. “Đây là những bộ dữ liệu về Việt Nam, được mở nguồn hoàn toàn miễn phí. Các nhà phát triển, doanh nghiệp, và nhà nghiên cứu tại Việt Nam có thể sử dụng chúng để giải quyết các vấn đề địa phương”, ông nói.
Phát triển dữ liệu Việt Nam quy mô lớn, chất lượng cao để đào tạo và đánh giá AI là ưu tiên cấp bách
Theo ông Trần Việt Hùng, Nhà sáng lập & CEO, Tổ chức AI for Vietnam, nếu biết cách sử dụng, AI giống như một “bảo bối thần kỳ”, giúp chúng ta làm việc năng suất hơn rất nhiều. Tuy nhiên, tại Việt Nam, tiềm năng của AI dường như vẫn chưa được khai thác triệt để. Với tốc độ phát triển nhanh chóng như hiện nay, nếu chúng ta không kịp thời nắm bắt cơ hội, rất có thể cơ hội đó sẽ vụt mất.
Tổ chức AI For Vietnam đã chính thức tham gia vào Liên minh AI toàn cầu. Ông Trần Việt Hùng cho biết Project ViGen sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện hiện trạng tiếng Việt đang bị coi là một ngôn ngữ còn hiện diện hết sức khiêm tốn trong AI. Project ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động tuần cầu có tính đến ngữ cảnh của tiếng Việt.
Theo lãnh đạo NIC, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách.
Ông Võ Xuân Hoài, Phó Giám đốc NIC, cho biết năm nay là một năm đặc biệt đối với Việt Nam, đánh dấu bước trong bối cảnh nền kinh tế toàn cầu bước vào kỷ nguyên mới - kỷ nguyên của AI.
“Vì vậy, chủ đề của chương trình năm nay tập trung vào việc phát triển Việt Nam trở thành cường quốc AI trong tương lai. Cụ thể, chúng tôi hướng dẫn xây dựng cơ sở dữ liệu phục vụ nghiên cứu, phát triển và ứng dụng AI tại Việt Nam. Đây là một dự án vô cùng quan trọng, và chúng tôi có thể may mắn nhận được sự đồng hành của nhiều chiến lược chiến lược”, ông Hoài nói.
Theo lãnh đạo NIC, AI đang chuyển đổi thế giới. Do đó, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách. Dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị nhằm thúc đẩy đột phá trong khoa học, công nghệ, ĐMST và chuyển đổi số quốc gia.
“Dự án ViGen đòi hỏi nỗ lực chung từ các nhà hoạch định chính sách, nhóm nghiên cứu, nhà nghiên cứu, nhà phát triển, chuyên gia và người dùng. Cùng nhau, chúng ta sẽ biến AI thành một công cụ mạnh mẽ cho mọi người Việt Nam và đưa Việt Nam trở thành cường quốc AI toàn cầu”.
Ra mắt cẩm nang về AI mã nguồn mở Llama
Cũng tại sự kiện, Meta, phối hợp cùng Deloitte đã chọn Việt Nam là quốc gia đầu tiên trong khu vực Châu Á - Thái Bình Dương ra mắt cẩm nang mang tên "ĐĐMST trong khu vực công ở Châu Á - Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama".
Cẩm nang này cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế, và an ninh công cộng.
Được biết, Bộ KH&CN hợp tác cùng MISA để thử nghiệm một trợ lý ảo, giúp giảm 98% thời gian tra cứu thông tin cho cán bộ, qua đó tăng hiệu suất làm việc và tiết kiệm thời gian.
Ông Bùi Thanh Minh, Phó Tổng Giám đốc Công ty Cổ phần MISA
Theo ông Bùi Thanh Minh, Phó Tổng Giám đốc Công ty CP MISA, điểm nổi bật của giải pháp này là khả năng triển khai trên hệ thống nội bộ, đảm bảo việc bảo mật dữ liệu quan trọng của chính phủ nằm trong cơ sở hạ tầng kiểm soát của Việt Nam, đồng thời cung cấp khả năng hỗ trợ với độ trễ thấp.
Người dùng có thể thực hiện các truy vấn bằng ngôn ngữ tự nhiên để tìm kiếm các tài liệu pháp lý, thông tin bộ phận và hướng dẫn, bao gồm các bài phát biểu, bài báo, câu hỏi thường gặp, thông tin chi tiết của chuyên gia và dữ liệu thống kê. Ứng dụng hỗ trợ nhiều định dạng dữ liệu khác nhau, chẳng hạn như Microsoft Word, Excel, PDF và liên kết web.
"Chatbot AI này không chỉ giúp giảm thiểu thời gian xử lý yêu cầu mà còn tạo ra một kênh giao tiếp nhanh chóng và hiệu quả giữa Bộ và công dân, mang lại lợi ích lớn cho chính quyền và người dân. Sự thành công của dự án này là minh chứng cho khả năng của MISA trong việc triển khai các giải pháp AI có tính ứng dụng cao trong môi trường công quyền", đại diện MISA cho biết.
Cũng ứng dụng Llama, trong dự án với Bộ Tư pháp, Viettel đã triển khai trợ lý pháp lý ảo, giúp rút ngắn thời gian nghiên cứu văn bản pháp luật khoảng 30%.
Ông Chris Lewin, Giám đốc Năng lực AI và dữ liệu khu vực Châu Á - Thái Bình Dương, Deloitte, chia sẻ: "Khi Châu Á - Thái Bình Dương trải qua quá trình chuyển đổi số mạnh mẽ, AI mã nguồn mở đang trở thành một động lực quan trọng trong việc định hình tương lai của lĩnh vực công"./.