VLSP 2020 - Hội thảo quốc tế về Xử lí ngôn ngữ và tiếng nói tiếng Việt
Ngày 18/12/2020, Hội thảo quốc tế về Xử lí ngôn ngữ và tiếng nói tiếng Việt (VLSP – Vietnamese Language and Speech Processing) năm 2020 đã được Câu lạc bộ VLSP - chi hội của Hội Tin học Việt Nam tổ chức tại Trường Đại học Bách khoa Hà Nội.
CLB Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt chính thức được ra mắt.
Sự kiện thu hút hơn 100 đại biểu tham gia tại chỗ và 15 đại biểu tham gia trực tuyến từ TP. Hồ Chí Minh và một số nước châu Âu (Đức, Thuỵ Điển, Hungary), đến từ các nhóm nghiên cứu về xử lí ngôn ngữ tự nhiên cũng như ngôn ngữ học cho tiếng Việt.
Đến tham dự và chỉ đạo Hội thảo có PGS.TS Trần Đỗ Đạt, Phó giám đốc Văn phòng các chương trình trọng điểm cấp nhà nước bộ Khoa học và Công nghệ; Ông Nguyễn Long, Tổng Thư ký Hội Tin học Việt Nam, GS.TSKH. Hồ Tú Bảo, Trưởng phòng thí nghiệm khoa học dữ liệu Viện nghiên cứu cao cấp về toán…
GS.TSKH. Hồ Tú Bảo nói về quá trình thành lập CLB Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt.
Hội thảo là diễn đàn thường niên của cộng đồng VLSP, được tổ chức lần đầu tiên vào năm 2012, nhằm chia sẻ các kết quả nghiên cứu, tổ chức các cuộc thi đánh giá hiệu quả của các công cụ xử lí tiếng Việt, cùng với đó là xây dựng những bộ dữ liệu chuẩn có chú giải ngôn ngữ, phục vụ cộng đồng nghiên cứu.
Cho đến năm 2019, chuỗi hội thảo được các nhóm nghiên cứu VLSP thuộc nhiều trường đại học, trung tâm nghiên cứu trong cả nước phối hợp tổ chức, cùng với các hội nghị khoa học quốc tế khác tại Việt Nam.
Tháng 7/2020, Câu lạc bộ VLSP, chi hội của Hội Tin học Việt Nam chính thức thành lập, có thể nói là sự kiện quan trọng đánh dấu giai đoạn phát triển mới của cộng đồng xử lí ngôn ngữ tự nhiên ở Việt Nam. Chào mừng sự kiện này, Hội thảo VLSP 2020 đã phát động 07 cuộc thi đánh giá các công cụ xử lí văn bản và tiếng nói tiếng Việt. Với các nội dung thi phong phú, Hội thảo VLSP 2020 thu hút hơn 150 đội đăng kí. Sau 3 tháng chuẩn bị, 41 đội đã đi tới vòng trong cùng.
Ông Nguyễn Long, Tổng Thư ký Hội Tin học Việt Nam chúc mừng CLB Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt chính thức được ra mắt.
Để hội thảo được duy trì và ngày càng hiệu quả hơn qua các năm, bên cạnh nỗ lực của mọi thành viên Ban Tổ chức, còn ghi nhận sự hỗ trợ tích cực của nhiều đơn vị, đặc biệt là doanh nghiệp sẵn sàng tài trợ, đóng góp dữ liệu, kinh phí cho hội thảo và các cuộc thi. Đây đều là những đóng góp, ủng hộ hoàn toàn tự nguyện, vì sự phát triển của cộng đồng VLSP. Có những doanh nghiệp đồng hành với VLSP nhiều năm liền như Aimesoft, Zalo, VinBDI, Quỹ VinIF, Viettel, Vbee, VCCorp. Bên cạnh đó, có những đơn vị vừa mới khởi nghiệp hoặc đang nhen nhóm thành lập nhóm nghiên cứu như Dagoras, ReML cũng nhiệt tình đóng góp cho hoạt động của VLSP.
TS. Nguyễn Thị Minh Huyền trao chứng nhận cho các nhà tài trợ.
Liên quan đến hội thảo, ông Bùi Thế Duy, Thứ trưởng Bộ Khoa học và Công nghệ (KH&CN) cho biết: “Nhiều năm qua, Bộ KH&CN đã luôn đồng hành, hỗ trợ cộng đồng nghiên cứu và phát triển về xử lí ngôn ngữ tự nhiên tiếng Việt. Đây luôn là một trong những định hướng nghiên cứu trọng tâm cần được đầu tư”.
Thứ trưởng nhận định, thực tế cho thấy, các nhóm nghiên cứu, doanh nghiệp triển khai các nghiên cứu nhỏ lẻ ở Việt Nam đã rất khó cạnh tranh với nhiều tập đoàn công nghệ lớn trên thế giới.
“Vì vậy, tôi cho rằng, chỉ khi kết nối lại với nhau và chia sẻ dữ liệu với nhau, các nhóm nghiên cứu, các doanh nghiệp của chúng ta mới có khả năng nâng cao chất lượng nghiên cứu xử lí ngôn ngữ tự nhiên tiếng Việt và kiểm soát sản phẩm của chính mình.
Tuy nhiên, việc chia sẻ dữ liệu rất khó, đặc biệt là tạo ra bộ công cụ làm dữ liệu cộng đồng. Tôi mong rằng, Hội thảo VLSP 2020 sẽ thu hút nhiều người tham gia chia sẻ dữ liệu, góp phần xây dựng bộ công cụ mở, khi đó, mới thực sự tăng cường năng lực nghiên cứu phát triển, xử lí ngôn ngữ tự nhiên tiếng Việt”, Thứ trưởng Bùi Thế Duy nói.
Theo TS. Nguyễn Thị Minh Huyền, Chủ tịch Câu lạc bộ VLSP, mọi dữ liệu xây dựng phục vụ Hội thảo VLSP được chia sẻ cho toàn cộng đồng, phục vụ việc nghiên cứu, phát triển ứng dụng xử lí ngôn ngữ tự nhiên. Nhiều năm qua, hàng tuần, Ban Tổ chức đều tiếp nhận và đáp ứng các yêu cầu chia sẻ dữ liệu văn bản hoặc tiếng nói từ các cá nhân, nhóm nghiên cứu.
TS. Nguyễn Thị Minh Huyền, Chủ tịch CLB Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt.
Phát biểu chào mừng Hội thảo, GS. TSKH. Hồ Tú Bảo và PGS. TS. Lương Chi Mai, những người đặt nền móng cho sự kết nối của cộng đồng VLSP đã chia sẻ về lịch sử hình thành và phát triển của cộng đồng, ý nghĩa của sự phát triển cộng đồng này. Trong khuôn khổ Hội thảo, Ban Tổ chức đã tổng kết kết quả và trao giải cho từng nội dung thi. Các đội thi đoạt giải phải đáp ứng cả hai tiêu chí: chất lượng hệ thống dự thi và chất lượng báo cáo kĩ thuật. 6 báo cáo kĩ thuật hay nhất được chọn trình bày tại hội thảo về các chủ đề xử lí tiếng nói và xử lí văn bản cũng đã thu hút sự quan tâm của người nghe ở hội trường cũng như trực tuyến.
PGS. TS. Lương Chi Mai phát biểu khai mạc hội thảo.
Chung cuộc, các đội sau đây đã giành giải nhất trong 7 nội dung thi.
-
Tổng hợp tiếng nói: đội thi đến từ Công ty CP Smartcall;
-
Nhận dạng tiếng nói với dữ liệu huấn luyện hạn chế: đội thi đến từ Viện Công nghệ Karlsruhe (KIT) - CHLB Đức;
-
Nhận dạng tiếng nói với dữ liệu huấn luyện mở: đội thi đến từ Zalo;
-
Phân tích phụ thuộc: đội SunBear đến từ Công ty Sun Asterisk;
-
Trích rút quan hệ thực thể: đội thi đến từ Trường ĐH Bách khoa Hà Nội;
-
Dịch tự động Anh - Việt: đội Lab914 đến từ Trường ĐH Bách khoa Hà Nội;
-
Xác định tính tin cậy của tin tức trên mạng xã hội: đội Kurtosis Team với 4 thành viên từ 4 đơn vị khác nhau.
Với từng nội dung, các đội thi đều đã thể hiện khả năng tiếp cận với các phương pháp hiện đại nhất trên thế giới, phát triển và thử nghiệm các phương pháp phù hợp với dữ liệu của bài toán và các ràng buộc về thời gian và tài nguyên tính toán của mình. Nhiều đội thi bày tỏ sự hài lòng với kết quả và trải nghiệm thu được, đồng thời, kỳ vọng vào những tiến bộ trong mùa thi VLSP năm tới.
Câu lạc bộ Xử lí Ngôn ngữ và Tiếng nói Tiếng Việt công bố và trao giải cho các đội đã giành giải trong 7 nội dung thi.
PV