Hội thảo quốc tế về Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt lần thứ 8

11:45, 04/02/2022

Từ năm 2020, Câu lạc bộ VLSP (VLSP - Vietnamese Language and Speech Processing) đã chính thức thành lập như một chi hội của Hội Tin học Việt Nam và tiếp tục tổ chức chuỗi hội thảo quốc tế VLSP, vốn được khởi xướng từ năm 2012 với sự chủ trì của các nhóm nghiên cứu VLSP tại các trường viện ở Việt Nam.

Các hoạt động của hội thảo bao gồm báo cáo khoa học, toạ đàm về phát triển cộng đồng VLSP, trình diễn sản phẩm VLSP và các cuộc thi đánh giá hiệu quả của các công cụ xử lý tiếng Việt. Từ những cuộc thi này, nhiều bộ dữ liệu chuẩn đã được công bố cho cộng đồng xử lí ngôn ngữ tiếng Việt.

Ngày 18/12/2021 đã diễn ra Hội thảo quốc tế về Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt lần thứ 8 (VLSP 2021), cũng là sự kiện lần thứ hai do Câu lạc bộ VLSP, chi hội của Hội Tin học Việt Nam đứng ra tổ chức. Hội thảo do Trường Đại học Công nghệ Thông tin, ĐHQG TP.Hồ Chí Minh đăng cai, tuy nhiên do tình hình dịch Covid-19, hội thảo đã được tổ chức hoàn toàn trực tuyến.

Trong những năm gần đây, các hội thảo thường niên của VLSP tập trung vào các cuộc thi về các tác vụ xử lí ngôn ngữ. Điều này xuất phát từ nhu cầu dữ liệu có chú giải ngôn ngữ cho nghiên cứu phát triển trong lĩnh vực này, đặc biệt là cũng cần những bộ ngữ liệu tham chiếu để có thể đánh giá, so sánh các hệ thống xử lí ngôn ngữ. Với mỗi cuộc thi được tổ chức, VLSP cung cấp một bộ dữ liệu huấn luyện và một bộ dữ liệu đánh giá, trở thành nguồn dữ liệu chuẩn cho cộng đồng nghiên cứu. Các nội dung thi được lựa chọn bao gồm những bài toán nền tảng của xử lí ngôn ngữ, cùng với một số chủ đề ứng dụng được cộng đồng quan tâm.

Tại hội thảo lần này, các cuộc thi do VLSP tổ chức tiếp tục tăng lên cả về số lượng lẫn chất lượng. Tổng cộng 150 nhóm đã đăng kí tham dự 9 nội dung đánh giá các công cụ xử lí tiếng nói và văn bản tiếng Việt. Thành viên của các nhóm đến từ nhiều trường đại học và doanh nghiệp, không chỉ ở Việt Nam mà cả ở nước ngoài như Singapore, Nhật Bản, Hàn Quốc, Úc và Mỹ. Danh sách đăng kí cũng thể hiện sự thu hút của các cuộc thi đối với các doanh nghiệp, nhiều thí sinh đến từ các đơn vị thuộc các doanh nghiệp lớn như FPT, Viettel, VinGroup, VNG, VNPT… Ban tổ chức các cuộc thi bao gồm 25 thành viên đến từ nhiều trường đại học và công ty ở Việt Nam, Singapore,Úc, Đức, Thụy Điển và Mỹ. 

Chung cuộc, 35 đội thi đã về đích với 7 nội dung thi về xử lí tiếng nói và văn bản tiếng Việt:

1. Nhận dạng tiếng nói tiếng Việt trong hội thoại.

 2. Nhận dạng, xác minh người nói trong hội thoại.

 3. Tổng hợp tiếng nói tiếng Việt.

4. Nhận dạng tự động các thực thể có tên trong các tài liệu.

5. Đọc hiểu tự động văn bản tiếng Việt, với yêu cầu tự động tìm đoạn văn bản trả lời một truy vấn tiếng Việt.

6. Suy diễn ngôn ngữ tự nhiên, với yêu cầu tự động xác định quan hệ ngữ nghĩa (đồng thuận, mâu thuẫn hoặc không liên quan) giữa hai câu tiếng Việt hoặc song ngữ Anh - Việt.

7. Tự động sinh chú thích cho ảnh thu thập từ các bản tin về sức khoẻ.

Dẫn đầu các cuộc thi xử lí tiếng nói là các đội thi đến từ Trung tâm Không gian mạng Viettel (VTCC), SMARTCALL, RIKKEISOFT, VNPay và các nhóm sinh viên từ Trường Đại học Bách khoa Hà Nội, Đại học Quốc gia TP Hồ Chí Minh. Nhóm  VTCC nhận giải nhất cho tác vụ Nhận dạng tiếng nói, nhóm SmartCall từ công ty SMARTCALL nhận giải nhất nội dung thi xác định người nói, còn nhóm Navi-HUST từ Đại học Bách khoa HN nhận giải nhất cuộc thi Tổng hợp tiếng nói.

Các thành viên đến từ VCCorp cũng ghi dấu ấn với 2 giải nhất cho các nội dung thi Nhận dạng thực thể có tên và Đọc hiểu tự động văn bản. Các giải nhì và ba của hai nội dung này thuộc về các đội thi của Trường Đại học Khoa học Tự nhiên và Trường Đại học Công nghệ thông tin thuộc ĐHQG TPHCM, và một đội thi từ Trường Đại học Bách khoa Hà Nội. Các đội thi đến từ Trường Đại học Công nghệ thông tin thực sự áp đảo khi ẵm trọn cả ba giải nhất, nhì và ba của nội dung thi suy diễn ngôn ngữ tự nhiên. Trong khi đó, cuộc thi chú thích ảnh tự động cũng có giải nhất từ đội đến từ Trường Đại học Công nghệ thông tin, giải nhì và ba đến từ các thành viên VietAI ở Việt Nam, Hàn Quốc và Đức.

Tại hội thảo, người tham dự đã nghe các báo cáo từ các đội được đánh giá có báo cáo hay nhất, và các báo cáo tổng kết từng nội dung thi. Các phiên thảo luận sôi nổi từ sáng tới chiều, với chất lượng báo cáo được các chuyên gia đánh giá cao. Cuối ngày, các đội thi cùng Ban Tổ chức cũng dành thời gian để thảo luận, rút kinh nghiệm và chia sẻ kì vọng về hoạt động của hội thảo VLSP những năm tiếp theo.

Hội thảo VLSP lần thứ 8 đã kết thúc hoạt động năm 2021 của CLB VLSP. Ngay khi bước sang năm 2022, CLB lại khởi động cho mùa VLSP thứ chín, cùng với việc đăng cai Hội nghị quốc tế Oriental COCOSDA lần thứ 25 tại Hà Nội.

Các hoạt động của VLSP vì sự phát triển của cộng đồng nghiên cứu và phát triển VLSP ở Việt Nam đều dựa vào đóng góp tự nguyện của các nhóm nghiên cứu thuộc các trường viện trên khắp cả nước và từ nguồn tài trợ của nhiều doanh nghiệp. Trong đó, đặc biệt phải kể đến những đơn vị tài trợ thường niên như công ty Aimesoft, Quỹ Đổi mới sáng tạo Vingroup, Zalo. Trung tâm Không gian mạng Viettel (VTCC), VCCorp cũng là các đơn vị thường đồng hành cùng VLSP.

 

Thu Huyền