Hội thảo lần thứ 9 về Xử lí ngôn ngữ và tiếng nói tiếng Việt - VLSP 2022

13:43, 23/11/2022

Ngày 26/12/2022 sẽ diễn ra Hội thảo lần thứ 9 về Xử lí ngôn ngữ và tiếng nói tiếng Việt - VLSP 2022 do Viện Nghiên cứu Cao cấp về Toán (VIASM) đăng cai.

Các đơn vị đồng tổ chức gồm Trường Đại học Khoa học Tự nhiên và Trường Đại học Công nghệ - ĐHQG Hà Nội; Trường Đại học Công nghệ Thông tin - ĐHQG TP.HCM; Trung tâm từ điển Vietlex, Trường Đại học Bách khoa Hà Nội; Trường Đại học Thuỷ lợi; Trường Đại học Việt Pháp và Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Trang web hội thảo: https://vlsp.org.vn/vlsp2022

VLSP là hội thảo thường niên về xử lí ngôn ngữ và tiếng nói tiếng Việt do Câu lạc bộ VLSP, Hội Tin học Việt Nam tổ chức. Diễn đàn VLSP là nơi quy tụ các nhà nghiên cứu và chuyên gia làm việc trong lĩnh vực nghiên cứu về xử lí tiếng nói và ngôn ngữ tiếng Việt.

Trong những năm gần đây, chuỗi hội thảo VLSP đã có những đóng góp rất tích cực cho cộng đồng thông qua việc cung cấp các bộ dữ liệu có chú giải miễn phí dùng trong nghiên cứu; tổ chức các cuộc thi cho các nhóm nghiên cứu NLP có được đánh giá khách quan về chất lượng các công cụ giải quyết các tác vụ khác nhau trong lĩnh vực NLP, qua đó cộng đồng nghiên cứu cũng được chia sẻ các tiến bộ khoa học công nghệ nhờ các báo cáo khoa học của các đội thi xuất sắc nhất tại hội thảo.

VLSP 2022 tổ chức 7 cuộc thi về xử lí tiếng nói và xử lí văn bản, bao gồm: tổng hợp tiếng nói, nhận dạng tiếng nói, xác minh người nói, phân tích cú pháp thành phần, tóm tắt đa văn bản, dịch máy Trung - Việt, hỏi đáp đa ngữ về nội dung ảnh.

* Nhận dạng tiếng nói tiếng Việt (Vietnamese Automatic Speech Recognition - VietASR) là một trong những bài toán quan trọng nhất của xử lý tiếng nói. Chủ đề của cuộc thi năm nay tập trung vào nhận dạng các bài giảng trực tuyến. Trong gần 3 năm đại dịch vừa qua, chúng ta có một kho khổng lồ các video bài giảng trực tuyến. Do đó nhu cầu tự động phân loại, đánh chỉ mục, tìm kiếm nội dung kho bài giảng đó là rất lớn. Sử dụng công nghệ nhận dạng tiếng nói với độ chính xác cao để chuyển những video đó ra văn bản có thể giải quyết được nhu cầu trên.

* Tổng hợp tiếng nói có cảm xúc (Emotional Speech Synthesis ESS), một hướng nghiên cứu với nhiều thách thức, cho phép tái tạo lại giọng nói của con người theo biểu cảm cảm xúc nhất định. Hướng nghiên cứu này đã mở ra những ứng dụng có yêu cầu cao như thuyết minh/lồng tiếng phím, trợ lý ảo, kể chuyện… Các đội thi năm nay sẽ chinh phục 4 sắc thái cảm xúc phổ biến bao gồm trung lập (neutral), buồn (sad), vui (happy) và cáu giận (angry). Các đội cần nghiên cứu và phát triển hệ thống tổng hợp tiếng nói với các nhãn cảm xúc đầu vào, để đưa ra giọng nói đầu ra tương ứng với nhãn cảm xúc đó.

* Xác minh người nói trong môi trường đa ngôn ngữ (Multi-lingual Speaker Verification - AMSV) là một trong những bài toán thu hút nhiều sự quan tâm nhất của hội thảo VLSP 2022. Hệ thống xác minh người nói nhận đầu vào là một đoạn tiếng nói và cần phải xác minh liệu đoạn tiếng nói đó có khớp với người nói đã xác nhận hay không.

* Phân tích cú pháp thành phần tiếng Việt (Vietnamese Constituency Parsing - VCP) là một trong các bài toán cơ bản của xử lí ngôn ngữ. Với mỗi văn bản đầu vào, hệ thống phân tích cú pháp cần tự động phân tích, xây dựng cây cú pháp trong đó xác định rõ được các thành phần ngữ pháp trong câu, tạo cơ sở cho các ứng dụng phân tích và hiểu ngôn ngữ tự nhiên.

* Tóm tắt tóm lược đa văn bản Tiếng Việt (Vietnamese abstractive multi-document summarization-VLSP Abmusu) là một trong các tác vụ xử lí ngôn ngữ rất hữu ích để giải quyết vấn đề khai thác dữ liệu văn bản. Trong thời đại bùng nổ thông tin, khai thác dữ liệu một cách hiệu quả có tiềm năng rất lớn nhưng lại là một bài toán khó, tốn nhiều thời gian, tiền bạc và công sức. Nhận một tập tài liệu đầu vào, hệ thống tóm tắt phải chọn lọc hoặc tạo sinh một bản tóm tắt ngắn gọn cho các tài liệu này.

* Dịch máy là một bài toán quen thuộc trong Xử lí ngôn ngữ tự nhiên, tuy nhiên cho đến nay các nghiên cứu trong lĩnh vực này vẫn rất sôi động vì độ khó của bài toán, và còn thiếu nhiều dữ liệu huấn luyện cho các hệ thống này. Cuộc thi Dịch máy năm nay tập trung vào hai bài toán con, dịch máy Trung Việt và Việt Trung.

* Hỏi đáp đa ngôn ngữ về nội dung ảnh (Multilingual Visual Question Answering), một bài toán nghiên cứu đa lĩnh vực: Xử lí ngôn ngữ tự nhiên và Xử lí ảnh. Cuộc thi này xuất hiện lần đầu tiên tại VLSP 2022. Nhiệm vụ của các nhóm là xây dựng những mô hình/hệ thống phải có khả năng trả lời câu hỏi về nội dung ảnh bằng ngôn ngữ tự nhiên. Thêm một thách thức nữa là câu hỏi có thể bằng tiếng Việt, tiếng Anh hoặc tiếng Nhật.

Các hoạt động của VLSP vì sự phát triển của cộng đồng nghiên cứu và phát triển VLSP ở Việt Nam đều dựa vào đóng góp tự nguyện của các nhóm nghiên cứu thuộc các trường viện trên khắp cả nước và từ nguồn tài trợ của nhiều doanh nghiệp. Trong đó, đặc biệt phải kể đến những đơn vị tài trợ thường niên như Aimesoft, Dagoras, VBee, Int2.

Bảo Ngọc