Cần chủ động cung cấp thông tin tiếng Việt chuẩn, chính thống để huấn luyện các hệ thống AI

19:08, 18/12/2025

Một vấn đề mang tính chiến lược dài hạn được Chủ tịch Hội Nhà báo Việt Nam, Tổng Biên tập Báo Nhân Dân Lê Quốc Minh chia sẻ là dữ liệu tiếng Việt cho AI. “Người Việt Nam phải chủ động cung cấp thông tin tiếng Việt chuẩn, chính thống để huấn luyện các hệ thống AI” giúp AI hiểu sâu sắc ngôn ngữ và văn hóa bản địa.

Tại sự kiện Internet Day 2025 với chủ đề “Kiến tạo không gian số tin cậy - Internet Must Be Safer”, các chuyên gia từ nhiều lĩnh vực đã bàn thảo, chia sẻ nhiều nội dung thú vị để cùng nhau đóng góp cho sự phát triển của Internet Việt Nam an toàn, lành mạnh, tin cậy trong thời gian tới.

toa-dam-1.jpg

Các chuyên gia đã chia sẻ kiến tạo không gian số tin cậy: Từ văn hóa số tử tế đến hạ tầng số vững mạnh.

“Biển thông tin” và sự khủng hoảng niềm tin

Trong kỷ nguyên số, Internet và không gian mạng đã trở thành một phần không thể tách rời của đời sống kinh tế - xã hội Việt Nam. Từ học tập, làm việc, kinh doanh đến giải trí, kết nối cộng đồng, mọi hoạt động đều gắn chặt với môi trường số.

Tuy nhiên, song hành với những cơ hội to lớn là hàng loạt thách thức ngày càng phức tạp: Tin giả, lừa đảo, lộ lọt dữ liệu cá nhân, suy giảm niềm tin xã hội và sự lạm dụng công nghệ mới nổi.

Nhận định về một số thách thức, ông Lê Quốc Minh, Chủ tịch Hội Nhà báo Việt Nam, Tổng Biên tập Báo Nhân Dân cho biết thách thức lớn nhất của không gian mạng hiện nay chính là sự suy giảm niềm tin. “Hãy đặt mình vào vị trí của một người rất bình thường để suy nghĩ. Điều đáng sợ nhất của mạng bây giờ là không biết tin vào cái gì”, ông Lê Quốc Minh chia sẻ.

toa-dam-3.jpg

Ông Lê Quốc Minh: Người Việt Nam phải chủ động cung cấp thông tin tiếng Việt chuẩn, chính thống để huấn luyện các hệ thống AI.

Nếu như trước đây, nỗi lo của xã hội chủ yếu đến từ một số thông tin sai lệch, chưa được kiểm chứng, thì hiện nay, người dùng đang đứng trước một “biển thông tin” mênh mông, nơi thật - giả đan xen, thật giả lẫn lộn. “Khi không còn những “mỏ neo” để bám víu, con người dễ rơi vào trạng thái hoang mang, mất phương hướng, thậm chí thờ ơ với cả những thông tin chính thống. Đó là một nguy cơ không chỉ với từng cá nhân mà còn với nền tảng niềm tin của toàn xã hội”, nhà báo Lê Quốc Minh cho biết.

Hai mặt của vấn đề: Hạ tầng và nội dung

Phân tích thêm, ông Nguyễn Trường Giang, Quyền Giám đốc Trung tâm Internet Việt Nam (VNNIC), Bộ Khoa học và Công nghệ, cho rằng các thách thức trên không gian mạng có thể nhìn nhận ở hai mảng: “Mảng nổi” và “mảng chìm”.

“Mảng nổi” là các thông tin được chia sẻ, lan truyền trên mạng xã hội - tác động trực tiếp và nhanh chóng đến xã hội. Trong khi đó, “mảng chìm” là hạ tầng, Internet. Dù không lan tỏa tức thì, nhưng khi hạ tầng bị tấn công hay lạm dụng, hậu quả sẽ rất nghiêm trọng và mang tính hệ thống.

toa-dam-2.jpg

Ông Nguyễn Trường Giang: Các thách thức trên không gian mạng có thể nhìn nhận ở hai mảng: “mảng nổi” và “mảng chìm”.

Theo nhiều nghiên cứu quốc tế, khái niệm được nhắc đến nhiều nhất hiện nay là “lạm dụng”: Lạm dụng hạ tầng, lạm dụng thông tin, lạm dụng các nền tảng và đặc biệt là lạm dụng các công nghệ mới nổi như AI, dữ liệu lớn… cho những mục đích xấu. “Chính sự lạm dụng này đang làm gia tăng các rủi ro trên không gian mạng”.

Người dùng hoang mang giữa thật - giả

Từ góc nhìn của người sử dụng nền tảng số, bà Mai Thị Diệu Huyền, Phó Chủ tịch chuyên trách Hội đồng Doanh nhân nữ Việt Nam (VWEC), thẳng thắn chia sẻ cảm giác hoang mang trước lượng thông tin khổng lồ mỗi ngày. “Chúng ta mở tivi hay smartphone, lướt Facebook thấy một hình ảnh rất đẹp, nhưng không biết đó là thật hay là giả. Tin giả (fake news) đang trở thành một thách thức vô cùng lớn”.

Không chỉ dừng ở thông tin sai lệch, nỗi lo lớn hơn của người dùng và doanh nghiệp (DN) là vấn đề lộ lọt dữ liệu cá nhân. Ông Nguyễn Thành Đạt, Phó Giám đốc Trung tâm điều hành mạng FPT Telecom, cho biết các sự cố rò rỉ thông tin không chỉ khiến người dân lo sợ mà còn gây tổn hại nghiêm trọng đến những DN làm ăn chân chính.

Đồng quan điểm, ông Đặng Tùng Sơn, Phó Chủ tịch Hiệp hội Internet Việt Nam (VIA), Phó Chủ tịch kiêm Giám đốc Chiến lược Tập đoàn Công nghệ CMC, nhận định trong lĩnh vực an toàn thông tin - an ninh mạng, hai khái niệm song hành là “niềm tin” và “nỗi sợ”. Các số liệu cho thấy lừa đảo, chiếm đoạt dữ liệu, rò rỉ thông tin cá nhân đang gia tăng nhanh chóng, khiến nỗi sợ lớn dần và niềm tin ngày càng suy giảm. Vì vậy, minh bạch và trách nhiệm trở thành yếu tố then chốt.

Lộ lọt dữ liệu: Mối nguy hiện hữu

Theo ông Trần Văn Trí, Giám đốc AI Luật - LuatVietnam.vn, mất niềm tin là vấn đề rất lớn, nhưng lộ lọt thông tin cá nhân còn là mối nguy trực diện. “Rất nhiều người đã từng trải nghiệm việc vừa mua một món hàng thì ngay lập tức nhận được các cuộc gọi, tin nhắn liên quan. Nhiều chị em bị lừa bởi các đối tượng giả danh shipper. Điều đó cho thấy dữ liệu cá nhân của chúng ta đã bị lộ lọt ở đâu đó”, ông Trí phân tích.

Ông đánh giá cao việc Quốc hội thông qua Luật Bảo vệ dữ liệu cá nhân, dự kiến có hiệu lực từ đầu năm 2026, coi đây là một bước tiến quan trọng trong việc tạo hành lang pháp lý bảo vệ người dân trên không gian số.

Internet - không chỉ là nỗi sợ

Ở một góc nhìn khác, ông Nguyễn Lâm Thanh, đại diện TikTok Việt Nam, cho rằng có thể chúng ta đang quá lo lắng. Theo ông, Internet vẫn là “cứu cánh” giúp hàng triệu người kiếm sống, học tập, giải trí và tận hưởng cuộc sống tốt hơn. Các vấn đề như tin giả, lừa đảo, hàng giả… là câu chuyện của đời sống trực tuyến, nhưng nhiều thống kê cho thấy tỷ lệ các vấn đề này trên nền tảng số vẫn thấp hơn so với ngoài xã hội thực.

Điều đáng lo ngại hơn, theo ông Nguyễn Lâm Thanh, là sự thay đổi của các tổ chức, trong đó có cả cơ quan báo chí, đang chậm hơn rất nhiều so với tốc độ phát triển của công nghệ và xã hội. Khi thiếu những “trụ cột thông tin” đáng tin cậy, người dân không biết dựa vào đâu để kiểm chứng. Một trong những ví dụ tích cực là Cổng Thông tin Chính phủ - nơi người dân có thể tìm đến để xác thực thông tin.

Báo chí, pháp luật và nền tảng: Ba trụ cột của niềm tin

Trở lại với vai trò của báo chí, ông Lê Quốc Minh cho rằng chính trong giai đoạn niềm tin suy giảm, báo chí càng phải thể hiện rõ vai trò dẫn dắt. Người dùng ngày nay không cần báo chí cung cấp hàng nghìn thông tin mỗi ngày, mà cần được chỉ ra 10 - 20 thông tin quan trọng nhất, đáng tin cậy nhất.

Báo chí không còn chạy theo “view” đơn thuần, mà phải hướng tới sự cam kết (engagement), kéo người dân tham gia vào quá trình quản trị xã hội (governance), cao hơn nữa là xây dựng được một lực lượng độc giả trung thành (loyalty). Từ hàng trăm nghìn lượt truy cập, mục tiêu mới là 10.000 độc giả cốt lõi - những người tin tưởng và đồng hành lâu dài.

Bên cạnh báo chí, hệ thống pháp luật đóng vai trò là “điểm chặn” quan trọng. Các bộ luật do Quốc hội ban hành sẽ tạo khung khổ pháp lý để bảo vệ người dân, xử lý các hành vi vi phạm trên không gian số.

Cuối cùng là các nền tảng công nghệ. Trong cuộc chiến chống tin giả và lạm dụng, các nền tảng không thể đứng ngoài mà phải đồng hành, chia sẻ trách nhiệm với xã hội. Tuy nhiên, yếu tố cốt lõi vẫn là nâng cao nhận thức và kỹ năng cho người dùng, bởi theo thống kê, người cao tuổi - nhóm yếu thế - có nguy cơ tiếp nhận tin giả cao gấp nhiều lần so với người trẻ.

Cộng đồng - Chìa khóa của Internet an toàn

Thực tế cho thấy, 98% DN Việt Nam là DN nhỏ và vừa. Bà Mai Thị Diệu Huyền cho biết các tổ chức như VWEC đã sớm chú trọng xây dựng kỹ năng số cho nữ doanh nhân, từ việc lựa chọn dịch vụ tin cậy đến những thao tác cơ bản như không sử dụng WiFi công cộng. “Vấn đề là phải làm sao để việc nâng cao kỹ năng trở nên dễ làm, dễ hiểu, dễ áp dụng”, bà nhấn mạnh.

ba-huyen.jpg

Bà Mai Thị Diệu Huyền chia sẻ tại sự kiện.

Từ phía DN công nghệ, ông Nguyễn Thành Đạt khẳng định an ninh mạng phải là nền tảng cốt lõi, gắn với trách nhiệm quốc gia và người dân. FPT luôn đặt tiêu chuẩn an ninh mạng lên hàng đầu, đầu tư mạnh cho con người và các chương trình tuyên truyền cộng đồng.

Trong khi đó, ông Đặng Tùng Sơn cho rằng không tồn tại một nền tảng “an toàn tuyệt đối”. Điều quan trọng là khi sự cố xảy ra, phải quản trị minh bạch, rõ ràng. Tại CMC, triết lý “security by design” được áp dụng ngay từ đầu, cùng với mô hình “zero trust”, quản trị dữ liệu chặt chẽ và kiểm toán minh bạch các hệ thống AI.

Còn theo ông Nguyễn Trường Giang, để không gian số an toàn hơn, không thể chỉ dựa vào nỗ lực của một vài tổ chức. Trung bình mỗi tháng, thế giới ghi nhận khoảng 1,4 triệu tên miền bị lạm dụng. Tại Việt Nam, từ năm 2021 đến nay, đã có khoảng 1.900 tên miền bị sử dụng cho mục đích xấu. Con số này không quá lớn so với tổng số tên miền quản lý, nhưng vẫn là lời cảnh báo.

VNNIC đã triển khai nhiều biện pháp xây dựng “bức tranh tổng thể” về Internet an toàn, song yếu tố then chốt vẫn là huy động cộng đồng cùng tham gia, lan tỏa giá trị tích cực để lấn át tiêu cực.

Con người: ưu tiên lớn nhất trong 5 năm tới

Khi bàn về ưu tiên lớn nhất để kiến tạo không gian số Việt Nam an toàn trong 5 năm tới, các chuyên gia đều thống nhất là: Yếu tố con người.

Ông Lê Quốc Minh cho rằng chính sách có thể chậm, công nghệ có thể đáp ứng nhưng điều nguy hiểm nhất là công nghệ rơi vào tay những người có tư duy lệch lạc, mục tiêu xấu. Vì vậy, cần “hướng thiện” thế hệ trẻ ngay từ sớm, giáo dục kỹ năng số, ý thức trách nhiệm xã hội trong việc sử dụng công nghệ.

Đồng tình với Chủ tịch Hội Nhà báo Việt Nam, ông Nguyễn Lâm Thanh cho biết: Mỗi người dùng Internet nếu được trang bị đầy đủ kỹ năng và ý thức, các hiệu ứng tiêu cực sẽ giảm đi rất nhiều.

Bà Mai Thị Diệu Huyền nhấn mạnh vai trò của các chiến dịch truyền thông nâng cao nhận thức, tạo ra những “mỏ neo” thông tin để người dân tin tưởng và làm theo, đồng thời đẩy mạnh thông tin trên các kênh chính thống.

Chủ động dữ liệu tiếng Việt trong kỷ nguyên AI

Một vấn đề mang tính chiến lược dài hạn được ông Lê Quốc Minh đặc biệt lưu ý là dữ liệu tiếng Việt cho AI. “Người Việt Nam phải chủ động cung cấp thông tin tiếng Việt chuẩn, chính thống để huấn luyện các hệ thống AI”, ông nói. Nhiều quốc gia như Nhật Bản đã làm rất tốt việc này, giúp AI hiểu sâu sắc ngôn ngữ và văn hóa bản địa.

Trong khi đó, dữ liệu tiếng Việt hiện nay còn nhiều yếu tố “trêu chọc”, thiếu chuẩn mực, khiến các hệ thống dịch máy hay AI tạo sinh cho ra kết quả kém chất lượng. Tranh luận trong giới báo chí về việc cho phép AI sử dụng dữ liệu báo chí hay không, hoặc sử dụng nhưng phải trả phí, vẫn đang tiếp diễn. Tuy nhiên, điểm chung là cần nâng cao ý thức cung cấp dữ liệu chính thống, có trách nhiệm, để AI phục vụ tốt hơn cho xã hội Việt Nam.

Kiến tạo không gian số Việt Nam an toàn, đáng tin cậy trong 5 năm tới không phải là nhiệm vụ của riêng ai. Đó là bài toán tổng hòa của con người, công nghệ, pháp luật, báo chí, DN và toàn xã hội. Khi niềm tin được củng cố, kỹ năng được nâng cao và trách nhiệm được chia sẻ, không gian số sẽ thực sự trở thành động lực cho phát triển bền vững, thay vì là nguồn cơn của nỗi sợ./.