Những bộ dữ liệu quý có thể thương mại hóa

09:45, 06/07/2021

Theo các chuyên gia, khi phát triển công nghệ ứng dụng AI dữ liệu đóng vai trò đặc biệt quan trọng, ngoài những nguồn chung, có bộ dữ liệu có thể thương mại hóa.

Thông tin được các chuyên gia chia sẻ tại tọa đàm trực tuyến "Hạ tầng dữ liệu và tính toán", tổ chức chiều 5/7. Tại đây các chuyên gia đều cho rằng, cần có giải pháp thúc đẩy chia sẻ dữ liệu phục vụ nghiên cứu phát triển và ứng dụng trí tuệ nhân tạo (AI) theo nguyên tắc các bên cùng có lợi cũng như cơ chế thu thập, chuẩn hóa dữ liệu.

Phát biểu khai mạc tại tọa đàm, Thứ trưởng Bộ Khoa học và Công nghệ Bùi Thế Duy nhấn mạnh tới vai trò của AI trên toàn thế giới, là công nghệ có thể góp phần thay đổi sự phát triển kinh tế xã hội của tất cả các quốc gia, trong đó có Việt Nam. Năm 2021, Chính phủ đã ban hành Chiến lược Quốc gia về Nghiên cứu Phát triển và Ứng dụng Trí tuệ Nhân tạo đến năm 2030, để ứng dụng và phát triển công nghệ này tại Việt Nam.

Theo Thứ trưởng Bùi Thế Duy, để thực hiện Chiến lược này, những vấn đề liên quan đến đào tạo nguồn nhân lực, nghiên cứu, cơ sở dữ liệu cần xây dựng đồng bộ với hạ tầng tính toán, các máy tính có khả năng tính toán lớn cũng như đào tạo các kỹ thuật viên, để có thể xử lý các bài toán dữ liệu lớn... cần được triển khai. Đồng thời, triển khai từng bước cụ thể, làm rõ các khái niệm đến cách thức tính toán lớn của Việt Nam, cũng như chia sẻ những hạ tầng tính toán một cách hợp lý, hiệu quả nhất.

Thứ trưởng Bùi Thế Duy phát biểu khai mạc tọa đàm tại đầu cầu Bộ Khoa học và Công nghệ. Ảnh: Ngọc Thành.

Thứ trưởng Bùi Thế Duy phát biểu khai mạc tọa đàm tại đầu cầu Bộ Khoa học và Công nghệ. Ảnh: Ngọc Thành.

Hạ tầng dữ liệu và tính toán - nền tảng nghiên cứu AI

Cùng tham gia tọa đàm trực tuyến tại các đầu cầu TP HCM, Viện Hàn lâm Khoa học và Công nghệ Việt Nam và một số doanh nghiệp, các chuyên gia đã nêu các vấn đề đang đặt ra đối với hạ tầng dữ liệu và hệ thống tính toán của Việt Nam.

PGS. TS Nguyễn Long Giang, Phó Giám đốc Trung tâm Tiên tiến về Trí tuệ nhân tạo, Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết, trong Chiến lược quốc gia về nghiên cứu và phát triển trí tuệ nhân tạo đến năm 2030, nội dung hạ tầng dữ liệu trong tính toán, nghiên cứu và phát triển AI là định hướng số hai trong năm định hướng chiến lược quan trọng để hiện thực hóa mục tiêu đưa AI trở thành lĩnh vực quan trong trong cuộc Cách mạng 4.0. Đây cũng là nền tảng quan trọng trong nghiên cứu phát triển và ứng dụng AI.

TS Giang cho biết, dữ liệu phục vụ AI có tính đặc thù riêng, trải qua quy trình tiền xử lý như làm sạch, tinh chỉnh và dán nhãn cho các mô hình tính toán. Các dữ liệu sau đó cần có hạ tầng tính toán bao gồm các công nghệ tính toán hiệu năng cao, các mô hình tính toán đám mây, tính toán sương mù, tính toán biên... để khai thác, phát triển thành sản phẩm giải bài toán mong muốn của người dùng.

Các chuyên gia chia sẻ tại tọa đàm.

Các chuyên gia chia sẻ tại tọa đàm.

Làm rõ vấn đề này, PGS. TS Thoại Nam, Trưởng Phòng thí nghiệm Tính toán Hiệu năng cao, Đại học Bách khoa, Đại học Quốc Gia TP HCM nêu ví dụ, máy tính cũng như con người, cần được học và hiểu. Để làm được thì cần dữ liệu. "Máy tính giống con người về khả năng học tập, nền tảng để phát triển các khả năng khác trên máy tính chính là dữ liệu. Dữ liệu càng nhiều thì khả năng học hỏi và trí thông minh của máy tính càng lớn", PGS Nam nói.

Trong nghiên cứu AI cũng cần quan tâm đến các kỹ thuật để giải thuật. Kỹ thuật này ở Việt Nam trong giai đoạn hiện nay là học sâu, học máy. Đây là những kỹ thuật cơ bản, được Việt Nam hoàn thiện và sẵn sàng ứng dụng. Đặc biệt, máy tính bài bản là điều cần thiết để thực hiện những giải thuật AI và cần khối lượng tính toán lớn.

PGS Nam cho biết, học sâu trong AI đòi hỏi lượng tính toán rất lớn và gồm những bước tính toán đặc thù gồm thu thập dữ liệu, tinh chỉnh, dán nhãn, xử lý, từ đó mới có thể huấn luyện các mô hình học sâu, kiểm chứng lại mô hình trước khi đưa vào thực tiễn. Theo ông, hai bước này đòi hỏi khối lượng tính toán rất lớn và cần cân nhắc đến các giải pháp hỗ trợ.

Đưa ra một số giải pháp cho hạ tầng tính toán dữ liệu lớn, PGS Thoại Nam cho biết, phương pháp đang được thử nghiệm là kỹ thuật ABST hỗ trợ kiểm tra và đánh giá mô hình, sau đó quay trở lại đào tạo lại mô hình để có kết quả chính xác cao hơn. Các phương pháp tính toán trong dữ liệu giúp giảm tải lượng dữ liệu khổng lồ đối với máy tính hiện tại. Kích thước và lượng dữ liệu huấn luyện quá lớn đặt ra thách thức cho hạ tầng tính toán của AI. Theo ông, giải pháp xu hướng hiện nay là máy tính lượng tử, mặc dù kết quả còn sơ khai, nhưng giải pháp này đang tạo ra hướng tiềm năng mang đến khả năng tính toán vô hạn dành cho con người. "Một số nước tiên tiến bắt đầu xây phòng thí nghiệm và nghiên cứu những máy lượng tử đầu tiên", ông Nam nói.

Một giải pháp xử lý lượng dữ liệu khổng lồ khác trong AI phù hợp nhất là tính toán hiệu năng cao (HPC) có khả năng tính toán cực mạnh, giải quyết những bài toán lớn, được xây dựng ở những trung tâm siêu máy tính. Nhu cầu sử dụng HPC trong dữ liệu nghiên cứu của những tổ chức ngày càng nhiều.

Tính toán HPC phân tích dữ liệu bằng cách lấy thông tin từ cảm biến, dùng hạ tầng IoT để lấy thông tin, tập hợp để có dữ liệu lớn, xử lý trên hạ tầng tính toán hiệu năng cao. Những doanh nghiệp vừa và nhỏ, tổ chức không đủ tài chính xây dựng hạ tầng tính toán hiệu năng cao thường chuyển sang tính toán thông minh cao (HTC). Giải pháp này thực hiện nhiều bài toán không phải quá lớn, nhưng cho độ tối ưu cao.

"Sắp tới Việt Nam có thể gặp những thách thức và tiềm năng về bài toán xe tự hành, sản xuất thuốc... nên việc chuẩn bị giải pháp cho hạ tầng dữ liệu là điều quan trọng", PGS Thoại Nam nói.

Những bộ dữ liệu quý có thể thương mại hóa - 2

Thách thức về đồng bộ trong dữ liệu mở

Chia sẻ về hạ tầng dữ liệu và dữ liệu mở, TS Võ Sỹ Nam, Trưởng phòng Tin Y sinh Ứng dụng, Viện Nghiên cứu Dữ liệu lớn VinBigData cho biết, chất lượng dữ liệu là then chốt trong nghiên cứu AI bởi 80% công việc hiện nay là xử lý dữ liệu, do vậy đảm bảo chất lượng dữ liệu là rất quan trọng trong bất kỳ ứng dụng nào của AI.

Về dữ liệu mở, kỷ nguyên chia sẻ dữ liệu bắt đầu từ trước đây, ở một số quốc gia lớn. Đến nay, các doanh nghiệp tư nhân, tổ chức học thuật cũng đưa ra nguồn dữ liệu mở lớn, được dán nhãn và mô tả đầy đủ. Việt Nam cũng đã triển khai chương trình chia sẻ dữ liệu như đề án Tri thức Việt số Hóa, kết hợp với nguồn lực công và tư, tổ chức học thuật, doanh nghiệp để đóng góp và phát triển nguồn dữ liệu này.

Đưa ra dẫn chứng về hạ tầng dữ liệu, TS Nam giới thiệu cổng dữ liệu VinGen, là nền tảng quản lý, phân tích dữ liệu sinh học có quy mô lớn nhất Việt Nam. "Hiện nay cổng dữ liệu này có gần 5 nghìn GB dữ liệu, 10 máy tính toán, hơn 1000 lõi tính toán, việc phân tích dữ liệu bao gồm dán nhãn, tinh chỉnh", ông nói.

Theo TS Nam, thách thức chính của cổng dữ liệu cũng như những hạ tầng dữ liệu khác là hiệu năng hệ thống vì khối lượng tính toán lớn, tốn tài nguyên, cần cập nhật dữ liệu, và vấn đề đồng nhất dữ liệu.

Ông đưa ra một số giải pháp cải thiện hạ tầng dữ liệu như thích ứng với kỷ nguyên mở, xây dựng kế hoạch dài hạn thậm chí 20-30 năm. Đồng thời đảm bảo chất lượng và toàn vẹn của dữ liệu qua thời gian (dữ liệu tinh chỉnh không bị mất mát so với dữ liệu gốc), sử dụng công cụ để theo dõi sai lệch trong luồng dữ liệu.

Những bộ dữ liệu quý có thể thương mại hóa - 3

Tính toán hiệu năng cao cho AI tại Việt Nam

Đồng tình quan điểm về sự cần thiết hệ thống tính toán hiệu năng cao, TS Nguyễn Nhật Cường, Tổng Giám đốc Công ty TNHH Tích hợp Thông Minh Tính đưa ra một số ứng dụng. Trong công nghiệp, tính toán hiệu năng cao được sử dụng trong rất nhiều công việc như thiết kế các vật liệu nano, sản xuất thuốc, thiết kế chip vi mạch, thiết kế ô tô, cầu đường, kiến trúc, khí tượng. Từ năm 2012, nhiều doanh nghiệp Việt sử dụng ảnh máy tính tính toán hiệu năng cao ứng dụng trong thiết kế vi mạch cắt CNC, dự báo thời tiết, phân tích hình ảnh y tế.

TS Cường cho biết, hiện các mô hình tính toán đang được ứng dụng trong dự báo thời tiết, mô phỏng vật liệu, phân tích ảnh, văn bản, phân tích dữ liệu tin sinh học. Một số máy tính toán hiệu năng cao tại Việt Nam được đặt ở Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Trung tâm Khí tượng Thủy văn, Bộ Tài nguyên và Môi trường và Đại học Quốc gia Hà Nội, TP HCM.

Về nhu cầu cho tính toán hiệu năng cao tại Việt Nam, theo TS Cường, hầu hết trường đại học, viện nghiên cứu đều thiếu máy chủ dùng cho tính toán hiệu năng cao, nhân sự trong vấn đề này còn thiếu. Ngoài ra, các công ty đầu tư cho máy máy chủ tính toán hiệu năng cao đều ở mức ban đầu.

Thực tế nhu cầu tính toán hiệu năng cao cho AI là có, nhưng chi phí khá lớn. "Tại Việt Nam có nhiều bài toán cần sử dụng dạng tính toán này trong AI, nhưng hạ tầng quốc gia chưa sẵn sàng, ví dụ phân tích biến chủng nCoV, hoặc giao thông", ông nói.

TS Cường đề xuất một số giải pháp để cải thiện tính toán hiệu năng cao bao gồm việc đào tạo nhân sự giải quyết bài toán này, thiết lập các kế hoạch phần đào tạo liên quan tới tính toán dữ liệu hiệu năng cao trong trường đại học, trang bị hạ tầng tính toán cỡ nhỏ (dưới 16 máy) để làm quen cách thức sử dụng và cách thức điều hành. Sau đó dựa trên mô hình thực tế để mở rộng hạ tầng tính toán (đến khoảng 128 máy) và hình thành tổ chuyên biệt về hạ tầng tính toán.

Những bộ dữ liệu quý có thể thương mại hóa - 4

Hạ tầng dữ liệu Việt Nam ở mức sơ khởi

Trả lời câu hỏi về vấn đề hạ tầng dữ liệu hiện có của Việt Nam, PGS. TS Thoại Nam nhận định "ở mức sơ khởi so với một số quốc gia khác bởi việc chia sẻ dữ liệu còn gặp nhiều thách thức". Ông cho rằng tinh thần, văn hóa chia sẻ tri thức trong nước chưa cao. Nhiều nguồn dữ liệu chưa được tập hợp, phân bố rời rạc. Tính bảo mật, riêng tư của việc chia sẻ dữ liệu trong một số mô hình (y tế, sức khỏe) chưa được đảm bảo. Ngoài ra, doanh nghiệp, viện nghiên cứu còn hạn chế trong việc tiếp cận nguồn dữ liệu mở để tạo điều kiện nghiên cứu và phát triển những sản phẩm hữu ích.

Theo TS Võ Sỹ Nam, việc khai thác những dữ liệu mở, có sẵn là một thách thức trong bối cảnh Việt Nam hiện nay. Vấn đề đầu tiên là thiếu nền tảng cho phép tập hợp và chia sẻ những nguồn dữ liệu rời rạc. Ngoài ra, các cơ chế cụ thể trong việc chia sẻ dữ liệu chưa được rõ ràng, ảnh hướng tới vấn đề bảo mật và riêng tư.

"Một trung tâm lưu trữ dữ liệu dùng chung, trước hết cần tuân thủ theo một số quy tắc như mở, chia sẻ dữ liệu như thế nào. Hạ tầng giúp lưu trữ dữ liệu, linh hoạt trong việc thay đổi quy mô lưu trữ như công nghệ đám mây. Các dữ liệu nền được xử lý để chuẩn hóa về một mô hình", TS Nam nói.

Theo PGS. TS Lê Hoàng Thái, giảng viên cao cấp Khoa Công nghệ Thông tin, Trường Đại học Khoa học tự nhiên, Đại học Quốc gia TP HCM, cần xác định được định hướng nghiên cứu, tiến đến xây dựng dữ liệu hạ tầng để tạo ra kho dữ liệu. Công việc này là lưu trữ và sưu tầm dữ liệu đã có, gồm dữ liệu thứ cấp (là cơ sở hình thành bài toán thách thức lớn cần giải quyết, sản phẩm là công bố khoa học). Dạng dữ liệu sơ cấp gắn liền với ứng dụng cụ thể, mang tính thô, là cơ sở dữ liệu riêng, có dán nhãn.

TS Võ Sỹ Nam đề xuất, nhà nước cần có động thái trong việc đưa ra những quy tắc về vấn đề chia sẻ dữ liệu, vì liên quan đến vấn đề bảo mật, riêng tư.

Ông cho rằng với các nghiên cứu mà lấy từ ngân sách của nhà nước do người dân đóng góp, nên công khai các nguồn dữ liệu. Ngoài ra có rất nhiều bộ dữ liệu quý sau thời gian thu thập có thể được thương mại hóa.

TS Đinh Văn Dũng, nghiên cứu viên chính Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội đề cập tới việc làm thế nào để dữ liệu có thể đáp ứng mục tiêu chuyển đổi số của doanh nghiệp và phù hợp với các mục tiêu kinh doanh, tạo ra sản phẩm mới, giúp dự báo cơ hội đối với doanh nghiệp.

Theo TS Nguyễn Hữu Đức, Đại học Bách khoa Hà Nội, việc tập hợp dữ liệu, kiểm soát chất lượng và chia sẻ dữ liệu là ba chìa khóa chính. Để hướng tới việc kiểm soát chất lượng và chia sẻ dữ liệu, ông cho rằng một mô hình có thể đảm bảo được những yếu tố này là dữ liệu mở. Hệ thống này cho phép các bên đóng góp dữ liệu từ nhiều nguồn khác nhau, có thể chia sẻ rộng rãi trong cộng đồng mà không bị cản trở về chi phí bản quyền và giấy phép sử dụng. Hiện Việt Nam đã có những bước đầu trong việc xây dựng dữ liệu mở điển hình như là cổng dữ liệu quốc gia là đầu mối để thu nhận thông tin.

Tọa đàm được tổ chức trong khuôn khổ các hoạt động quảng bá cho Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng AI đến năm 2030, Bộ Khoa học và Công nghệ là đơn vị chủ trì triển khai chuỗi tọa đàm về AI gồm 5 chuyên đề. Hạ tầng dữ liệu và tính toán là chuyên đề đầu tiên. Các tọa đàm tiếp theo là: Đào tạo nhân lực AI; Nghiên cứu phát triển; Ứng dụng AI; và Xây dựng cộng đồng AI.

Đồng hành với Bộ Khoa học và Công nghệ trong chuỗi tọa đàm này còn có Aus4Innovation là đơn vị tài trợ, Câu lạc bộ Khoa-Trường-Viện Công nghệ Thông tin - Truyền thông Việt Nam FISU phối hợp tổ chức và báo Vnexpress là đơn vị truyền thông chính thức.

Trong khuôn khổ chương trình Quảng bá Chiến lược quốc gia về AI, Bộ Khoa học và Công nghệ chủ trì phối hợp với Câu lạc bộ FISU (Chi hội thuộc Hội Tin học Việt Nam với các thành viên là các khoa viện trường đào tạo về CNTT), sự đồng hành hỗ trợ của Aus4Innovation, triển khai xây dựng mạng lưới hợp tác Việt Nam - Australia về AI. Mục đích của việc xây dựng mạng lưới nhằm hỗ trợ các các nhà khoa học (scientists), các chuyên gia (specialists) và cán bộ ứng dụng (practioners), các cơ sở đào tạo và nghiên cứu, doanh nghiệp AI của Việt Nam cơ hội kết nối, hợp tác với các đối tác của Australia, cập nhật các thông tin mới nhất về phát triển AI tại Việt Nam, Australiavà trên thế giới. Các cá nhân và tổ chức có nguyện vọng tham gia mạng lưới này, vui lòng điền thông tin vào mẫu dưới link (bằng tiếng Anh).

Đăng kí cho cá nhân.

Đăng kí cho các tổ chức, doanh nghiệp.

Theo vnexpress.net