Hội thảo quốc tế VLSP 2025 - Thúc đẩy nghiên cứu và ứng dụng trí tuệ nhân tạo cho tiếng Việt

14:47, 13/08/2025

Từ ngày 29 - 30/10/2025 sẽ diễn ra Hội thảo lần thứ 11 về Xử lí ngôn ngữ và tiếng nói tiếng Việt - VLSP 2025 tại Viện Nghiên cứu Cao cấp về Toán (VIASM). Đây là sự kiện thường niên uy tín, quy tụ đông đảo chuyên gia, nhà khoa học trong và ngoài nước, góp phần thúc đẩy phát triển công nghệ ngôn ngữ tiếng Việt trong kỷ nguyên trí tuệ nhân tạo.

Hội thảo được tổ chức kết hợp với Hội nghị quốc tế INLG lần thứ 18 (18th International Natural Language Generation Conference), một diễn đàn học thuật quy tụ các nhà nghiên cứu, học giả và chuyên gia trong ngành từ khắp nơi trên thế giới trình bày và thảo luận về những tiến bộ mới nhất trong lĩnh vực tạo sinh ngôn ngữ tự nhiên. Hội nghị này  được tổ chức dưới sự bảo trợ khoa học của SIGGEN (Special Interest Group on Natural Language Generation), chi hội của Hiệp hội Ngôn ngữ học Tính toán ACL (Association for Computational Linguistics), tổ chức khoa học uy tín nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên. 

Từ khi thành lập năm 2020, CLB VLSP đã kế thừa và mở rộng các hoạt động khởi xướng từ năm 2005, đặc biệt là chuỗi hội thảo quốc tế tổ chức liên tục từ 2012 đến nay. Ngoài các báo cáo khoa học có chất lượng, VLSP còn cung cấp nhiều bộ dữ liệu có chú giải miễn phí cho mục tiêu nghiên cứu và tổ chức các cuộc thi đánh giá công cụ xử lý tiếng Việt, giúp cộng đồng nghiên cứu nâng cao năng lực và ứng dụng thực tế.

Hội thảo về Xử lí ngôn ngữ và tiếng nói tiếng Việt là sự kiện thường niên uy tín, quy tụ đông đảo chuyên gia, nhà khoa học trong và ngoài nước, góp phần thúc đẩy phát triển công nghệ ngôn ngữ tiếng Việt trong kỷ nguyên trí tuệ nhân tạo.

Năm 2025, VLSP tổ chức 11 cuộc thi bao quát nhiều lĩnh vực từ xử lý tiếng nói, xử lý văn bản pháp luật, hỏi - đáp tự động, dịch máy, đến các ứng dụng đa phương tiện. Cụ thể:

1. Đánh giá chất lượng tiếng nói (Speech Quality Assessment)

Đánh giá chất lượng tiếng nói (SQA) đóng vai trò quan trọng trong việc đánh giá hiệu suất của các hệ thống truyền thông, thu hút sự quan tâm từ các công ty viễn thông và nhà cung cấp dịch vụ Internet. Trong cuộc thi này, người tham gia sẽ làm việc với một tập dữ liệu tiếng Việt, trong đó mỗi mẫu tiếng nói bị suy giảm được gán một điểm chất lượng từ 1 đến 5. Mục tiêu là phát triển một mô hình có khả năng dự đoán điểm chất lượng cho các mẫu tiếng nói được cung cấp.

2. Nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói (Automatic Speech Recognition and Speech Emotion Recognition)

Nhận dạng tiếng nói là một trong những bài toán quan trọng nhất trong xử lý tiếng nói, nơi mà câu nói đầu vào được chuyển đổi thành văn bản tương ứng. Năm nay, ngoài việc nhận dạng nội dung văn bản, các đội còn được yêu cầu nhận dạng cảm xúc của câu nói đầu vào. Điều này cho phép hệ thống được áp dụng vào các bài toán thực tế như trợ lý ảo, nhà thông minh,…

Khi tham gia cuộc thi, các đội sẽ được cung cấp các bộ dữ liệu như những cuộc thi các năm trước đây, bao gồm cả dữ liệu có nhãn và không có nhãn. Ngoài ra, các đội có thể sử dụng các mô hình đã được huấn luyện sẵn và các bộ dữ liệu mở để nâng cao độ chính xác của mô hình. Điều này làm tăng tính thực tiễn của cuộc thi, giúp sản phẩm sau cuộc thi có thể đáp ứng được các yêu cầu thực tế.

3. Xác thực người nói tiếng Việt có khả năng chống giả mạo (Vietnamese Spoofing-Aware Speaker Verification)

Cuộc thi VSASV 2025 nhằm thúc đẩy nghiên cứu trong lĩnh vực nhận dạng người nói (Speaker Verification - SV) và phát hiện giả mạo đối với tiếng Việt - một ngôn ngữ hiện vẫn còn hạn chế về tài nguyên ngôn ngữ. Cuộc thi này gồm hai hạng mục.

Tác vụ 1: Xác thực người nói có nhận biết giả mạo

Người tham gia sẽ phát triển các hệ thống SV sử dụng tập dữ liệu do Ban Tổ chức cung cấp. Mỗi lượt thi sẽ bao gồm một đoạn âm thanh đăng ký (enrollment) và một đoạn âm thanh kiểm tra (test), trong đó âm thanh kiểm tra có thể là thật (bona fide) hoặc bị giả mạo (spoofed). Hệ thống phải xác định xem hai đoạn âm thanh có thuộc về cùng một người nói hay không, đồng thời phải có khả năng chống lại các tấn công giả mạo - tức là nếu âm thanh kiểm tra là giả mạo, hệ thống phải từ chối xác nhận.

Tác vụ 2: Phát hiện giả mạo tiếng Việt

Người tham gia sẽ xây dựng hệ thống phân loại một đoạn âm thanh duy nhất là thật (bona fide) hay giả mạo (spoofed), mà không sử dụng thông tin về danh tính người nói.

4. Chuyển đổi giọng nói tiếng Việt (Vietnamese Voice Conversion)

Cuộc thi Chuyển đổi Giọng nói tiếng Việt 2025 được tổ chức nhằm khuyến khích cộng đồng nghiên cứu và phát triển các giải pháp chuyển đổi giọng nói chuyên biệt cho tiếng Việt. Mục tiêu chính của cuộc thi là xây dựng những mô hình có khả năng biến đổi giọng nói của một người nói gốc thành giọng nói của một người nói mục tiêu, với độ chính xác cao về đặc trưng giọng, giữ nguyên toàn bộ nội dung và đảm bảo sự tự nhiên trong ngữ điệu, ngữ âm.

5. Truy xuất thông tin pháp lý sâu (DRiLL: The challenge of Deep Retrieval in the expansive Legal Landscape)

Với sự phát triển nhanh chóng của trí tuệ nhân tạo, đặc biệt là các mô hình sinh trong xử lý ngôn ngữ tự nhiên (NLP) như ChatGPT, DeepSeek và Qwen, nhu cầu về các công cụ thông minh để xử lý văn bản pháp lý đang gia tăng đáng kể. Trong khi nghiên cứu NLP pháp lý đã đạt được nhiều tiến bộ ở các ngôn ngữ như tiếng Anh, tiếng Nhật và tiếng Trung, thì các nghiên cứu nền tảng cho việc xử lý văn bản pháp lý tiếng Việt vẫn còn khá khiêm tốn. Cuộc thi DRiLL được tổ chức nhằm thúc đẩy nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên trong miền pháp luật, đặc biệt tập trung vào bài toán truy hồi văn bản. Điểm đặc biệt của cuộc thi nằm ở bộ dữ liệu thực tế, với kho dữ liệu được xây dựng từ 27 loại văn bản pháp lý, thuộc nhiều lĩnh vực khác nhau như dân sự, hình sự, hôn nhân và gia đình, v.v.  

6. Xây dựng mô hình ngôn ngữ chuyên biệt cho lĩnh vực luật (Vietnamese Legal Assistant with Small Language Models)

Trong cuộc thi này, các đội tham gia được yêu cầu xây dựng một mô hình ngôn ngữ nhỏ (SLM) có khả năng:

Hiểu và phản hồi các câu hỏi pháp lý và hành chính trong đời sống thực tế bằng tiếng Việt

Cung cấp hướng dẫn pháp lý dựa trên hệ thống pháp luật Việt Nam (ví dụ: dân sự, lao động, đất đai, hôn nhân gia đình, bảo hiểm xã hội và hành chính công)

Truy xuất và trích dẫn các văn bản pháp luật, điều khoản hoặc các bước thủ tục liên quan

Hoạt động trong môi trường ngoại tuyến hoặc tài nguyên hạn chế, chẳng hạn như trên máy tính cá nhân hoặc các thiết bị nhúng

7. Hỏi đáp dựa vào lập luận số trên tài liệu tiếng Việt (Numerical Reasoning Question Answering)

Cuộc thi “Hỏi đáp dựa vào lập luận số trên tài liệu tiếng Việt” được thiết kế nhằm thúc đẩy phát triển các mô hình có khả năng đọc hiểu, trích xuất và suy luận số trong văn bản tài chính tiếng Việt.

Dữ liệu của cuộc thi cho mỗi câu hỏi bao gồm cả văn bản thuần (text) và dữ liệu có cấu trúc dạng bảng biểu, đòi hỏi mô hình không chỉ xử lý ngôn ngữ tự nhiên mà còn phân tích thông tin từ bảng một cách chính xác.

Các mô hình tham gia sẽ cần phân tích ngữ cảnh, nhận diện và xử lý các con số, thực hiện các phép tính (cộng, trừ, so sánh, tỷ lệ, ...) và đưa ra câu trả lời kèm theo lập luận minh bạch. 

Cuộc thi nhằm thúc đẩy các nghiên cứu mang tính ứng dụng cao trong lĩnh vực tài chính, góp phần nâng cao khả năng hiểu biết tài chính (financial literacy) và ứng dụng công nghệ AI vào các bài toán thực tế tại Việt Nam.

8. Hỏi đáp thông tin thời gian trong văn bản tiếng Việt (Temporal Question Answering)

Cuộc thi này bao gồm hai hạng mục.

Tác vụ 1: Tính toán ngày tháng 

Tác vụ này tập trung vào việc xử lý các câu hỏi liên quan đến phép toán với ngày tháng, như cộng hoặc trừ một khoảng thời gian từ một ngày cụ thể. Hệ thống cần hiểu và thao tác với các biểu thức thời gian để tính toán câu trả lời dựa trên ngữ cảnh được cung cấp. Nhiệm vụ trọng tâm là phân tích và thao tác với các biểu thức thời gian để tính ra ngày mới.

Tác vụ 2: Hỏi - đáp về khoảng thời gian 

Nhiệm vụ đặt ra là trả lời các câu hỏi về độ dài của một sự kiện hoặc hành động dựa trên ngữ cảnh cho trước. Hệ thống cần trích xuất thông tin liên quan đến khoảng thời gian từ văn bản và sử dụng hiểu biết thực tế để đánh giá các lựa chọn trả lời, xác định sự kiện kéo dài bao lâu. Vấn đề trọng tâm là nhận diện các khoảng thời gian rõ ràng hoặc ẩn ý trong ngữ cảnh (ví dụ: “6 năm”) và áp dụng suy luận thực tế để phân loại các lựa chọn là đúng (“có”) hoặc sai (“không”) dựa trên độ chính xác thực tế.

9. Phân tích ngữ nghĩa sâu cho văn bản tiếng Việt (Semantic Parsing)

Phân tích ngữ nghĩa (semantic parsing) là một trong những bài toán cốt lõi trong xử lý ngôn ngữ tự nhiên (NLP), với mục tiêu chuyển đổi câu văn tự nhiên thành các biểu diễn có cấu trúc phản ánh ý nghĩa sâu xa của chúng, chẳng hạn như biểu thức logic hoặc Biểu diễn Nghĩa Trừu tượng (Abstract Meaning Representation – AMR). Kỹ thuật này đóng vai trò nền tảng cho nhiều ứng dụng như hỏi – đáp tự động, trích xuất thông tin, dịch máy và trợ lý ảo.

Cuộc thi Phân tích ngữ nghĩa tiếng Việt được tổ chức nhằm thúc đẩy nghiên cứu và phát triển các mô hình phân tích ngữ nghĩa cho tiếng Việt – một ngôn ngữ hiện vẫn còn thiếu hụt các tài nguyên và công cụ ngữ nghĩa quy mô lớn. Cuộc thi không chỉ là cơ hội để khám phá những thách thức trong việc xử lý ngôn ngữ có đặc điểm hình thái và cú pháp riêng như tiếng Việt, mà còn góp phần xây dựng các tài nguyên nền tảng phục vụ cộng đồng VLSP trong và ngoài nước.

10. Dịch máy trong lĩnh vực y tế sử dụng các mô hình tiền huấn luyện với tham số hạn chế (Medical domain Machine Translation with Limited-Pretraining models)

Dịch máy (Machine Translation - MT) trong lĩnh vực y tế đặt ra thách thức đặc biệt do yêu cầu cao về độ chính xác và sự hiện diện của thuật ngữ chuyên ngành phức tạp, cấu trúc câu đặc thù và các sắc thái ngữ nghĩa phù hợp với thuật ngữ chuyên ngành. Khi giải quyết bài toán này với các mô hình có nguồn lực tiền huấn luyện hạn chế (limited pre-trained models), độ khó tăng lên đáng kể.

Các đội sẽ được cung cấp các bộ dữ liệu song ngữ Anh-Việt về chuyên ngành y tế như những năm trước, bao gồm cả tập dữ liệu huấn luyện, tập dữ liệu phát triển và tập dữ liệu kiểm thử thuộc lĩnh vực Y tế. Ngoài ra, các đội có thể sử dụng các mô hình đã được huấn luyện trước (Pre-trained models) với tham số hạn chế và các bộ dữ liệu mở để giải quyết các thách thức như các mục ở trên cho bài toán dịch máy trong lĩnh vực y tế. 

11. Hỏi đáp đa thể thức dựa trên luật biển báo giao thông đường bộ tiếng Việt (Multimodal Legal Question Answering on Traffic Sign Rules)

Cuộc thi VLSP 2025 MLQA-TSR tạo ra với mong muốn thúc đẩy các nghiên cứu về NLP thông qua tác vụ QA để giúp xây dựng các hệ thống hỗ trợ người dùng hiểu rõ ý nghĩa của các biển báo giao thông đường bộ cũng như các tình huống giao thông dựa vào biển báo giao thông, thúc đẩy nhận thức về đảm bảo an toàn khi tham gia giao thông. Đặc biệt, tác vụ này lần đầu tiên kết hợp giữa dữ liệu ảnh (image) và văn bản (text) nhằm mục đích xây dựng và phát triển các mô hình đa thể thức (multimodal) phục vụ cho nghiên cứu về NLP nói riêng và AI nói chung.

Dưới đây là một ví dụ:

Câu hỏi: Các loại xe nào được phép lưu thông vào đoạn đường trên trong khoảng từ 6:00 đến 22:00:

  1. Xe khách 40 chỗ.

  2. Xe ô tô con

  3. Xe đầu kéo.

  4. Ô tô kéo rơ moóc

Reference: Điều 26.1, P.106(a,b) trong Thông tư 54/2019/TT-BGTVT 

Đáp án: B.

Các dữ liệu được xây dựng phục vụ hội thảo VLSP sẽ được chia sẻ chung cho toàn cộng đồng phục vụ việc nghiên cứu, phát triển ứng dụng xử lí ngôn ngữ tự nhiên. Các kết quả thực nghiệm tốt nhất đạt được trong mỗi nội dung thi cũng là căn cứ cho các nhóm nghiên cứu triển khai lựa chọn giải pháp cho các bài toán thực tế.

Đồng trưởng Ban Tổ chức VLSP 2025 là TS. Nguyễn Thị Minh Huyền, Trường Đại học Khoa học Tự Nhiên - ĐHQGHN và TS. Nguyễn Thị Thu Trang, Đại học Bách khoa Hà Nội.

Ban chương trình do PGS. TS. Lương Chi Mai, Viện Công nghệ thông tin, Viện HLKH&CN Việt Nam và PGS. TS. Nguyễn Lê Minh, Viện Khoa học và Công nghệ Nhật Bản (JAIST) làm đồng Trưởng ban.  

Thông tin về Hội thảo có trên website: https://vlsp.org.vn/vlsp2025