Ứng dụng thành quả của VLSP và những vấn đề tồn tại trong kết nối dữ liệu và hạ tầng

Thùy Dung 07:28, 24/07/2020

VLSP là tên viết tắt của CLB Xử lí ngôn ngữ và tiếng nói tiếng Việt thuộc Hội Tin học Việt Nam (VAIP). Phát biểu trong buổi Tọa đàm ICT 2020 “Chuyển đổi số: Cơ hội và thách thức”, ông Nguyễn Việt Cường - Tổng giám đốc của Công ty INT2 đã chỉ ra một số vấn đề còn tồn tại trong công cuộc Chuyển đổi số.

Trước đó, Công nghệ và Đời sống đã đăng tải bài viết Tổng đài nhân tạo: Xu hướng chuyển đổi số trong lĩnh vực Chăm sóc khách hàng tại Việt Nam nói về cơ hội và thách thức của những công ty công nghệ trong nước, phần mềm mới của Công Ty (Vbee) và những “bước đi” của Tập đoàn Công nghệ CMC trong bài CMC: Hướng tới tương lai số – Tầm nhìn và sứ mệnh. Thì trong bài viết này, chúng ta sẽ cùng nhận định rõ hơn về thành quả của VLSP. Đồng thời chỉ rõ những vấn đề còn tồn tại trong kết nối dữ liệu và hạ tầng qua bài tham luận của đại diện Công ty CP Công nghệ chọn lọc thông tin (InfoRe) và Công ty TNHH Tích hợp thông minh (INT2).

Vừa qua, khi bùng phát đợt 2 dịch COVID-19 hồi đầu tháng 3/2020, InfoRe và INT2 đã được huy động tham gia xử lí và phân tích dữ liệu tại Tổ thông tin đáp ứng nhanh, trực thuộc Ban chỉ đạo Quốc gia Phòng, chống dịch COVID-19.

Tại tổ thông tin này, InfoRe và INT2 đã xử lí, phân tích dữ liệu để hỗ trợ công tác dịch tễ như: Truy vết và lập mô hình xác suất liên hệ F0, F1, F2; Tham gia xây dựng, chuẩn bị dữ liệu đầu vào cho các mô hình dự báo nguy cơ cho các tỉnh thành và toàn quốc để hỗ trợ quá trình ra quyết định; Xây dựng và cập nhật liên tục trang web biểu diễn thông tin dịch.

Toàn cảnh buổi Tọa đàm ICT 2020 “Chuyển đổi số: Cơ hội và thách thức” do Hội Tin học Việt Nam tổ chức ngày 3/7 vừa qua.

Cũng tại thời điểm này, rất nhiều công cụ và phương pháp xử lí dữ liệu do InfoRe và INT2 đã tích luỹ trong thực tế sản xuất kinh doanh thời gian qua cũng như hơn 10 năm tham gia các dự án VLSP được ứng dụng một cách triệt để. Cụ thể, như các vấn đề liên quan đến chuẩn hoá thông tin đầu vào, bóc tách thông tin từ tờ khai y tế, xử lí tích hợp thông tin từ nhiều nguồn, từ nhiều ngôn ngữ khác nhau. Mục tiêu là để truy vết dịch tễ nhanh nhất có thể và đưa ra chỉ số nguy cơ sát với thực tế.

Để có góc nhìn rõ hơn, ông Nguyễn Việt Cường Tổng giám đốc của INT2 kiêm đồng sáng lập InfoRe đưa ra dẫn chứng: “Những ứng dụng và phương pháp xử lý dữ liệu trong dịch COVID-19 của chúng tôi được ví như lý thuyết thùng gỗ mà ông Nguyễn Huy Dũng – Cục trưởng Cục Tin học hóa (Bộ TT-TT) đã nêu trước đó. Chúng tôi chính là đội ngũ bên trong cùng nhất và sử dụng những thông tin có thể nói là rất cốt lõi nhất của Chính phủ điện tử để hỗ trợ cho dịch tễ. Cũng chính từ đấy, chúng tôi mới thấy được rất nhiều vấn đề còn tồn tại trong quá trình bắt nhịp với Chuyển đổi số của các doanh nghiệp, đơn vị”.

Nguyên lý cái thùng gỗ.

Ngoài ra, ông Nguyễn Việt Cường còn cho rằng cần phải đẩy nhanh, mạnh hơn nữa quá trình chuyển đổi số, đặc biệt là ở những cơ sở dữ liệu quan trọng của quốc gia như cơ sở dữ liệu định danh. Khi chúng ta mở cửa trở lại, chắc chắn công tác dịch tễ sẽ rất vất vả và nếu thiếu đi sự hỗ trợ của công nghệ thông tin mà đặc biệt là công nghệ phân tích dữ liệu lớn thì hiệu quả sẽ giảm đi nhiều lần và hậu quả là vô cùng lớn.

Từ thực tế đó, ông Nguyễn Việt Cường cho rằng quá trình xử lí phân tích thông tin, một công cụ trọng yếu trong quá trình chuyển đổi số, sẽ bao gồm 5 bước cơ bản như:

- Thu thập, bóc tách và chuẩn hoá thông tin đầu vào.

- Phân loại và kết nối thông tin.

- Lưu trữ và xử lí thông tin.

- Phân tích thông tin.

- Biểu diễn và phân tích kết quả.

Dựa trên cơ sở các thành phần đó, cùng với những kinh nghiệm thực tế quý báu có được trong thời gian tình nguyện tại tổ công tác, đại diện ho InfoRe và INT2 ông Nguyễn Việt Cường đã đưa ra một số kiến nghị.

Thứ nhất về thu thập, bóc tách và chuẩn hoá thông tin: Việt Nam tuy đã có nhiều năm tin học hóa và chuyển hóa số liệu. Tuy nhiên, giữa các cơ sở dữ liệu tồn tại sự thiếu nhất quán, không tuân theo tiêu chuẩn biểu diễn thông tin. Do đó, khi thống nhất các cơ sở dữ liệu thì dẫn đến việc không hợp nhất được một cách mặc định theo chuẩn quốc gia.

Ví dụ đơn giản như tên quốc gia hay ngay cả tên tỉnh/thành phố Việt Nam được viết theo quy tắc không thống nhất giữa các CSDL. Trong khi đó, thế giới đã có các chuẩn ISO để kí hiệu tên nước bằng 2 kí tự, 3 kí tự, tên đầy đủ; Việt Nam cũng có các quy định về tên định danh nhưng các đơn vị triển khai không hề tuân theo.

Do đó, các cơ quan chức năng cần nhanh chóng hiện thực hoá và phổ biến rộng rãi các cơ sở dữ liệu thống nhất, mở, đặc biệt là phổ cập đến các doanh nghiệp và sinh viên khối ngành CNTT. Tạo sẵn các hệ thống thư viện lập trình mở hoặc API cung cấp các thông tin và hàm chuẩn hoá căn bản, thống nhất.

Ông Nguyễn Việt Cường Tổng giám đốc của INT2 kiêm đồng sáng lập InfoRe phát biểu tại buổi Tọa đàm ICT 2020 “Chuyển đổi số: Cơ hội và thách thức”.

Thứ hai về mặt phân loại và kết nối thông tin: Hầu hết các hệ thống đều chưa có các yếu tố phân loại ngữ nghĩa của thông tin để trợ giúp cho quá trình xử lí tự động, tức là giúp máy hiểu được đoạn dữ liệu này có ý nghĩa gì, chức năng gì. Thậm chí nhiều lập trình viên ở Việt Nam cũng rất thông thạo, nhưng không phải dùng cho mục đích xử lí thông tin tự động của chính mình, mà để giúp các hệ thống của Google, Facebook hiểu được ý nghĩa của các từ trong trang web, với mục đích là để tối ưu hoá tìm kiếm, SEO.

Đây cũng là một nhiệm vụ của các thành viên trong cộng đồng VLSP để tự động hoá quá trình này, mà từ chuyên môn gọi là semantic role labeling.

Từ thực tế trên, InfoRe và INT2 đã đưa ra kiến nghị tới cơ quan chức năng cần huy động các doanh nghiệp tiến hành bản địa hoá các cây phân loại thông tin và mở ra cho cộng đồng dùng chung.

Thứ ba về lưu trữ và xử lí thông tin: Các hệ thống lưu trữ và xử lí chưa thực sự sẵn sàng để có thể huy động khi cần giải quyết bài toán cấp quốc gia. Việc huy động của Tổ công tác là khó khăn và chậm trễ với lượng tài nguyên chỉ được một phần so với yêu cầu. Các hệ thống tính toán và lưu trữ đa phần là dạng truyền thống, tập trung, không phù hợp với các công nghệ xử lí phân tán hiện đại cũng như các yêu cầu về hiệu năng tính toán.

Chính bởi vậy, các tập đoàn lớn cần có cơ chế đầu tư vào các công nghệ xử lí phân tán thế hệ mới với các hạ tầng sẵn sàng và có thể tham gia đóng góp một phần cho các nhiệm vụ quốc gia khi cần thiết.

Thứ tư về kĩ thuật phân tích thông tin: Trên thực tế trong đợt dịch Covid vừa qua, InfoRe và INT2 đã huy động một số đơn vị tham gia cùng. Thế nhưng, khả năng thực chiến của các cơ sở đào tạo, công ty công nghệ còn rất “non”.

Vì vậy cần đẩy mạnh sự kết hợp giữa nhà trường và doanh nghiệp trong đào tạo ở các lĩnh vực mới phục vụ quá trình chuyển đổi số quốc gia. Thời lượng cho sinh viên đi thực tập cần nhiều hơn; tỉ lệ giảng viên các khoá ngắn hạn đến từ khối doanh nghiệp cần được tăng cường; đẩy mạnh hơn mô hình cơ quan nhà nước làm trung gian đảm bảo việc hợp tác giữa doanh nghiệp và cơ quan nghiên cứu từ chất lượng sản phẩm đến giải ngân.

Cuối cùng về biểu diễn và phân tích kết quả: Việc tham gia của chuyên gia của lĩnh vực là tối cần thiết. Mọi phân tích thông minh sẽ gần như vô nghĩa nếu không có sự kết hợp này, mà trước là để đặt bài toán đúng và sau là hiểu được kết quả đầu ra.

Trong đợt tham gia xử lí và phân tích dữ liệu tại Tổ thông tin đáp ứng nhanh, InfoRe và INT2 đã làm việc trực tiếp cùng các giáo sư đến từ Viện Vệ sinh Dịch tễ Trung ương, Trường ĐH Y Hà Nội, Trường ĐH Y tế Công cộng và thấy được sự tương đồng trong nghiên cứu khoa học giữa hai lĩnh vực tưởng chừng không liên quan là phân tích dịch tễ và phân tích dữ liệu lớn trên mô hình đồ thị. Hai bên bổ trợ cho nhau và cùng thúc đẩy nhanh công tác phòng, chống dịch COVID-19.

Thế nhưng, hiện nay có một thực trạng của việc các startup công nghệ, hoặc bộ phận công nghệ tiên phong của các tập đoàn chạy theo các mô hình trí tuệ nhân tạo được công khai tràn lan trên Internet, đưa về chạy, ra một số kết quả, rồi công bố tôi tốt, ví dụ như mô hình AI của chúng tôi chuẩn đoán viêm phổi tốt hơn bác sĩ, v.v...

Tuy nhiên, phần lớn đó là các mô hình blackbox, kết quả tốt hơn về mặt thống kê, tỉ lệ dương tính giả hoặc âm tính giả vẫn ở xa so với chuyên gia. Và thực tế là các mô hình này hoạt động hiệu quả nhất khi được sử dụng dưới dạng hệ hỗ trợ quyết định cho chuyên gia.

Trước thực trạng đó, đại diện cho InfoRe và INT2 ông Nguyễn Việt Cường đưa ra đề xuất rằng các cơ quan chức năng cần học theo các nước phát triển, sớm nghiên cứu và ban hành các tiêu chuẩn về triển khai ứng dụng AI. Các tiêu chuẩn này đã được Nhật Bản và Hoa Kỳ công bố gần đây.

Câu lạc bộ Xử lý Ngôn ngữ và Tiếng nói tiếng Việt (Vietnamese Language and Speech Processing - VLSP) được các thành viên tự nguyện thành lập trên cơ sở tiếp thu và chia sẻ các tư tưởng của cộng đồng ngôn ngữ học tính toán thế giới.

Câu lạc bộ ra đời với mục đích trở thành nơi kết nối các nhóm nghiên cứu, phát triển về xử lý tiếng Việt, để có tiếng nói chung tham gia vào các hoạt động đẩy mạnh sự phát triển của nghiên cứu và ứng dụng trong lĩnh vực Xử lý ngôn ngữ tự nhiên nói riêng và trí tuệ nhân tạo nói chung ở Việt Nam cũng như trên thế giới.

Công ty cổ phần Công nghệ Chọn lọc Thông tin (INFORE) được thành lập vào tháng 4/2012 bởi các thành viên trẻ cùng có đam mê và kiến thức trong ngành Công nghệ thông tin (ICT) với mục tiêu thu hẹp khoảng cách giữa nghiên cứu và ứng dụng, giữa học thuật và thực tiễn.

Hiện tại, công ty đang phát triển hệ thống SMCC (Social Media Command Center - Trung tâm điều phối tương tác truyền thông trên mạng xã hội) với các dòng sản phẩm hoạt động kết hợp giữa các công nghệ phân tích, thu thập dữ liệu và xử lý, giải quyết vấn đề, giúp các thương hiệu, doanh nghiệp hoặc cá nhân tương tác với cộng đồng mạng xã hội theo các chiến lược, cách thức an toàn, nhanh chóng, hiệu quả, chính xác và ổn định nhất.

 Thùy Dung