Rất nhiều người quan tâm đến xử lý ngôn ngữ và tiếng nói tiếng Việt

15:19, 23/06/2020

Như tin đã đưa, ngày 4/6/2020, lãnh đạo Hội Tin học Việt Nam (VAIP) đã trao quyết định công nhận ban trù bị thành lập cho CLB Xử lý Ngôn ngữ và Tiếng nói tiếng Việt (VLSP) với tư cách là một chi hội thành viên của VAIP. Theo dự kiến, VLSP sẽ tổ chức đại hội thành lập vào ngày 27/6/2020 theo hình thức trực tuyến. Trước thềm sự kiện này, TS. Nguyễn Thị Minh Huyền – Khoa Toán – Cơ – Tin học, Trường ĐHKHTN thuộc ĐHQG Hà Nội đã thay mặt VLSP có những chia sẻ với Tin học & Đời sống.

TS. Nguyễn Thị Minh Huyền – Khoa Toán – Cơ – Tin học, Trường ĐHKHTN thuộc ĐHQG Hà Nội 

PV: Trước hết xin bà cho biết những nét cơ bản nhất của lĩnh vực xử lý ngôn ngữ của chúng ta trong những năm qua.

 TS. Nguyễn Thị Minh Huyền: Nói về nghiên cứu xử lý ngôn ngữ tiếng Việt của chúng ta thì trước tiên phải nhắc đến  đề tài được đặt tên là VLSP, với mục tiêu xây dựng tài nguyên ngôn ngữ cùng các công cụ xử lý cơ bản, của GS TS Hồ Tú Bảo và PGS TS Lương Chi Mai từ những năm 2005. Ngay thời điểm ban đầu đó, đề tài VLSP đã kết nối đến 11 nhóm nghiên cứu khác nhau ở Hà Nội, TP Hồ Chí Minh, Đà Nẵng và cả ở Nhật Bản.

Trong 15 năm qua, lực lượng chuyên gia, nghiên cứu viên trong lĩnh vực VLSP ngày càng  lớn mạnh. Mỗi trường, viện như ĐH Công nghệ và ĐH Khoa học Tự nhiên thuộc ĐHQG HN, ĐH Bách khoa HN, ĐH Khoa học Tự nhiên và ĐH Bách khoa thuộc ĐHQG TPHCM ... đều có một vài nhóm nghiên cứu liên quan tới VLSP.  Nếu như số lượng nhóm nghiên cứu trong giới hàn lâm tương đối ổn định, có thể thấy số nhóm quan tâm đến vấn đề xử lý ngôn ngữ ở các doanh nghiệp tăng lên nhanh chóng. Cộng đồng VLSP làm ứng dụng ở doanh nghiệp rất đông đảo, điều này có thể thấy được qua số lượng thành viên tham gia diễn đàn Xử lý ngôn ngữ trên Facebook hiện nay khoảng 4.800 người.   

Về các hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ có thể chia làm hai hướng lớn. Một hướng tập trung hơn vào phần giao giữa ngôn ngữ học với CNTT, và một hướng thiên hẳn về CNTT. Các mô hình học máy hiện đại được sử dụng phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên. Như thế, nhiều thông tin ngôn ngữ học được tiếp cận không theo các lý thuyết ngôn ngữ học truyền thống, mà thay vào đó là cách làm có thể hiểu nôm na giống như cơ chế bắt chước nhiều hơn. 

PV: Thực tế của lĩnh vực xử lý ngôn ngữ cho thấy những đầu tư về tài chính và tri thức đòi hỏi rất lớn. Tuy nhiên, hiệu quả kinh tế lại không thể có ngay. Xin bà cho biết quan điểm về thực tế này. 

TS. Nguyễn Thị Minh Huyền: Đây là thực tế không phải riêng với tiếng Việt mà với mọi ngôn ngữ đều như vậy. Một trong các vấn đề sống còn đối với lĩnh vực này là dữ liệu có chú giải ngôn ngữ. Xây dựng tài nguyên ngôn ngữ luôn phải đầu tư chiều sâu và đương nhiên rất tốn kém về tiền bạc, công sức. Lĩnh vực này luôn là không dễ làm và không phải ai cũng làm được nếu không được trang bị kiến thức đầy đủ và không có kinh nghiệm làm thực tế.  

Trong xử lý ngôn ngữ, hiệu quả một bộ ngữ liệu có đạt được hay không còn phụ thuộc vào miền ứng dụng cụ thể. Ví dụ mô hình được huấn luyện bằng ngữ liệu trong miền ngôn ngữ báo chí thì không thể sử dụng hiệu quả trong ứng dụng thương mại điện tử sử dụng ngôn ngữ mạng xã hội… Như vậy, khi ta làm ứng dụng cho lĩnh vực nào thì phải có những đầu tư làm ngữ liệu tương ứng. Điều đó làm cho sự tốn kém càng tăng lên nữa. 

Trong giai đoạn từ 2010 đến những năm gần đây thì việc có được đầu tư Nhà nước cho việc xây dựng tài nguyên ngôn ngữ nền tảng là rất khó khăn, vì câu hỏi đặt ra với mỗi đề tài luôn là đầu ra có sản phẩm ứng dụng gì ngay, trong khi xử lý ngôn ngữ là câu chuyện đường dài.  Một vài năm trở lại đây, trong bối cảnh gắn với chuyển đổi số, Nhà nước đã có sự quan tâm đặc biệt về đầu tư cho xây dựng ngữ liệu, điển hình là có một số đề tài về ngữ liệu tiếng nói đã được đề xuất thông qua.  

Những năm gần gây, hoạt động của VLSP là thúc đẩy làm sao để phát triển kho ngữ liệu cho cộng đồng được sử dụng. Nhiều doanh nghiệp đã tích cực vào cuộc, tài trợ cho hoạt động này. Nhờ vậy, nhiều bộ dữ liệu hiện được chia sẻ miễn phí cho cộng đồng nghiên cứu đến từ tài trợ của doanh nghiệp nhiều hơn là đầu tư của Nhà nước. Trong thời gian tới, VLSP sẽ tiếp tục những nỗ lực nhằm xây dựng cũng như thúc đẩy sự chia sẻ các kho ngữ liệu và tri thức cho cộng đồng. Để có được sự phát triển bền vững, VLSP cũng sẽ cần thiết lập các giấy phép sử dụng ngữ liệu tuỳ theo mục đích hàn lâm hay thương mại. Xây dựng chính sách thu phí sử dụng ngữ liệu cho các hệ thống thương mại sẽ giúp VLSP có thể tái đầu tư cho việc phát triển các kho ngữ liệu dùng chung.  

PV: Ứng dụng CNTT trong hoạt động dịch thuật đang là một thị trường có sức hút cao và về cơ bản thì ai cũng biết đến Google Translate. Tuy nhiên, đổi lại việc sử dụng miễn phí với ứng dụng này là lộ bí mật trong các cơ quan nhà nước và doanh nghiệp. Bà nghĩ gì về thực tế này?

TS. Nguyễn Thị Minh Huyền: Qua thực tế mà chúng tôi được biết, không ít doanh nghiệp rất ý thức về vấn đề bảo vệ thông tin. Những doanh nghiệp này cấm nhân viên của mình sử dụng Google Translate miễn phí để dịch tài liệu công việc. Vì vậy, chính họ đã chủ động tìm mua hoặc phát triển các công cụ dịch thuật khác thay vì sử dụng miễn phí dịch vụ do Google cung cấp. 

Một số chiến lược gia cũng cho rằng Nhà nước cần có chính sách trong hoạt động dịch thuật các tài liệu quốc gia, theo đó không khuyến khích sử dụng các công cụ dịch miễn phí trên Internet. Với chính sách như vậy, chúng tôi tin rằng thị trường ứng dụng CNTT trong hoạt động dịch thuật sẽ có sức phát triển rất tốt. 

PV: Cuối cùng, xin bà cho biết về sự hiểu biết lẫn nhau và những sự hợp tác cần có với ngành ngôn ngữ học. 

TS. Nguyễn Thị Minh Huyền: Suốt 20 năm qua, chúng tôi cũng luôn theo đuổi vấn đề hợp tác giữa hai ngành CNTT và ngôn ngữ học. Tất nhiên, ở mỗi thời kỳ thì mức độ theo đuổi cũng có sự khác nhau. Thực tế, vấn đề này còn phụ thuộc vào động lực của chính các chuyên gia ngôn ngữ học. Về cơ bản, muốn có được sự hợp tác chặt chẽ thì trước hết phải đào tạo được con người. 

Trong chương trình của Khoa Ngôn ngữ học thuộc trường ĐH KHXH&NV – ĐHQG Hà Nội từ nhiều năm qua cũng có một vài học phần đại học và sau đại học có sự tham gia của giới làm CNTT. Từ đó, đã có những học viên cao học của ngành ngôn ngữ học theo đuổi định hướng xử lý ngôn ngữ tự nhiên với những kết quả giá trị. Tuy nhiên, việc đào tạo bài bản cần gắn với việc xây dựng một chương trình đào tạo liên lĩnh vực, mà điều này thì không dễ thực hiện khi số lượng chuyên gia ngôn ngữ học sẵn sàng tham gia công việc này còn rất ít ỏi. 

Bản thân ngành ngôn ngữ học cũng có nhiều người nhận thức nghiêm túc về việc phải có sự kết nối giữa hai cộng đồng. Nhưng trong thực tế của đào tạo và nghiên cứu, sự kết nối này không hề dễ. Suy cho cùng thì các nhà khoa học đều phải tập trung thực hiện các đề tài khoa học. Nếu như những đề tài của các nhà ngôn ngữ học không gắn với CNTT thì cũng rất khó hợp tác. Ngược lại, các đề tài của ngành CNTT cũng có mời một số nhà ngôn ngữ học cùng tham gia. Tuy vậy, việc tham gia cũng tương đối hạn chế khi mà họ chưa dễ có chung một tiếng nói. Phải khẳng định rằng có những chuyên gia ngôn ngữ học rất tha thiết với CNTT song điều này mới chỉ dừng lại ở một số cá nhân. Trong thời gian tới, chúng tôi sẽ vẫn kiên trì thúc đẩy sự hợp tác hai bên cũng như việc xây dựng và phát triển một chương trình đào tạo liên ngành.   

Xin cám ơn bà!

Trịnh Nguyễn (thực hiện)