Google siết chặt bảo mật AI trong trình duyệt Chrome
Google vừa công bố loạt tính năng bảo mật mới cho trình duyệt Chrome nhằm ngăn chặn nguy cơ tấn công gián tiếp vào AI thông qua các nội dung web không đáng tin cậy. Hệ thống phòng thủ mới giúp bảo vệ dữ liệu và hành vi người dùng trong môi trường GenAI.
Rủi ro mới từ AI trong trình duyệt
Trình duyệt đang trở thành giao diện chính để người dùng và doanh nghiệp tương tác với trí tuệ nhân tạo tổng quát (GenAI), đặc biệt là các công cụ AI dạng “agent” có khả năng tự động hóa hành động như ChatGPT Atlas hay Gemini của Google. Ngày càng nhiều người dùng tận dụng AI để viết email, phân tích dữ liệu, tổng hợp văn bản, thậm chí ra lệnh thực hiện thao tác web như điền biểu mẫu, đăng ký dịch vụ hoặc mua hàng.

Google chủ động tăng cường bảo mật trong trình duyệt Chrome.
Tuy nhiên, sự tiện lợi này kéo theo một rủi ro mới mang tên prompt injection gián tiếp - khi nội dung độc hại được ẩn trong các trang web và bí mật tác động đến mô hình AI đang hoạt động trong trình duyệt. Những prompt ẩn này có thể khiến AI hiểu sai mục tiêu của người dùng, tự ý thực hiện hành động không mong muốn hoặc rò rỉ dữ liệu nhạy cảm.
Các hệ thống bảo mật truyền thống vốn không được thiết kế để hiểu và xử lý mô hình tương tác mới giữa người dùng và GenAI, khiến đây trở thành “điểm mù” trong chiến lược bảo vệ dữ liệu doanh nghiệp. Nhận thấy xu hướng này, Google đã phát triển một kiến trúc bảo mật mới cho Chrome, nhấn mạnh vào việc kiểm soát AI ở chính nơi nó hoạt động: bên trong trình duyệt.
Lớp lọc hành vi độc lập nhằm kiểm soát phạm vi truy cập
Một trong những tính năng mới quan trọng nhất là mô hình đánh giá độc lập mang tên User Alignment Critic. Đây là một mô hình AI thứ hai, hoạt động độc lập với tác nhân chính (agent), có nhiệm vụ kiểm tra từng hành động được đề xuất bởi AI trước khi thực hiện. Mục tiêu là đảm bảo mọi hành động đều phục vụ đúng mục đích mà người dùng đã nêu, không bị ảnh hưởng bởi nội dung độc hại trên trang web.
User Alignment Critic không truy cập trực tiếp vào nội dung web, mà chỉ đánh giá metadata liên quan đến hành động. Nếu phát hiện hành vi sai lệch, hệ thống có thể từ chối hành động đó, yêu cầu AI lập kế hoạch lại hoặc trả quyền điều khiển cho người dùng nếu sai lệch lặp lại nhiều lần. Đây là lớp bảo vệ giúp ngăn AI bị thao túng theo hướng gây hại.
Song song đó, Google tiếp tục duy trì kỹ thuật spotlighting - hướng dẫn mô hình chỉ tuân theo chỉ thị của người dùng và hệ thống, không bị chi phối bởi nội dung trong trang web đang mở. Sự kết hợp giữa mô hình chính, mô hình kiểm tra độc lập và kỹ thuật điều hướng hành vi giúp xây dựng hệ thống AI an toàn hơn khi hoạt động trong môi trường mở.
Một rủi ro khác xuất hiện khi AI hoạt động trong trình duyệt là việc truy cập không kiểm soát đến nhiều nguồn dữ liệu khác nhau, từ các trang công khai đến các ứng dụng nội bộ. Điều này có thể dẫn đến rò rỉ dữ liệu giữa các phiên, đặc biệt nếu AI tự động tương tác với các trang mà người dùng không chủ động chia sẻ.
Để khắc phục, Google đã triển khai một cơ chế bảo vệ mới có tên Agent Origin Sets. Hệ thống này phân loại các trang web mà AI được phép truy cập theo hai nhóm: nhóm chỉ đọc và nhóm được phép đọc, gõ nội dung hoặc nhấp chuột. Phân loại rõ ràng này giúp hạn chế nguy cơ dữ liệu bị rò rỉ từ trang này sang trang khác mà không có sự đồng ý của người dùng.
Trước khi mở rộng quyền truy cập tới một trang web mới, AI phải được một hàm kiểm soát (gating function) xác nhận rằng trang đó phù hợp với mục tiêu tác vụ và được người dùng chia sẻ rõ ràng trong phiên làm việc. Gating function cũng được bảo vệ khỏi nội dung web không đáng tin, tránh nguy cơ bị thao túng.
Nhờ các giới hạn này, AI chỉ có thể sử dụng dữ liệu từ các nguồn có liên quan và có thể được chia sẻ đến các nguồn đã được phân quyền rõ ràng. Điều này thu hẹp đáng kể bề mặt tấn công thông qua trình duyệt và giảm nguy cơ rò rỉ thông tin giữa các nền tảng.
Minh bạch và kiểm soát người dùng
Ngoài các biện pháp kỹ thuật, Google cũng bổ sung các tính năng giúp tăng cường tính minh bạch và trao quyền kiểm soát cho người dùng. Khi AI thực hiện một tác vụ có độ nhạy cảm cao như truy cập trang ngân hàng, cổng thông tin y tế, đăng nhập tài khoản hoặc thực hiện thanh toán, hệ thống sẽ yêu cầu người dùng xác nhận rõ ràng trước khi tiếp tục.
AI cũng tạo nhật ký hoạt động (work log) giúp người dùng quan sát được từng hành vi mà mô hình đang thực hiện, từ đó phát hiện các hành động bất thường nếu có. Đây là bước đi quan trọng trong việc xây dựng lòng tin và giúp người dùng nắm quyền kiểm soát trong các tác vụ tự động.

AI trong trình duyệt yêu cầu xác nhận trước khi thực hiện hành động nhạy cảm.
Bên cạnh đó, Google triển khai thêm một bộ phân tích nội dung độc lập, hoạt động song song với mô hình AI chính để phát hiện prompt injection gián tiếp. Nếu bộ lọc phát hiện rằng một đoạn nội dung đang cố tình hướng AI thực hiện hành động sai lệch, nó có thể chặn ngay hành động đó trước khi được thực thi.
Tất cả các biện pháp này đều nhằm mục tiêu chung: đảm bảo AI hoạt động đúng với mục tiêu của người dùng, không bị lôi kéo hoặc thao túng bởi các nội dung tiềm ẩn rủi ro trên web.
Khuyến khích kiểm thử và cảnh báo sớm
Google cho biết, họ sẽ thưởng đến 20.000 USD cho các nhà nghiên cứu bảo mật phát hiện được lỗ hổng thực tế có thể vượt qua hệ thống bảo vệ mới. Cụ thể, các trường hợp đủ điều kiện bao gồm AI thực hiện hành động trái phép mà không có sự xác nhận của người dùng, rò rỉ dữ liệu nhạy cảm mà không bị hệ thống ngăn chặn kịp thời hoặc vượt qua một cơ chế phòng vệ được thiết kế để ngăn điều đó.
Thông qua chương trình thưởng lỗi bảo mật (bug bounty), Google muốn khuyến khích cộng đồng bảo mật toàn cầu cùng tham gia xây dựng một môi trường an toàn cho thế hệ trình duyệt AI tiếp theo.
Đại diện nhóm bảo mật Chrome cho biết, việc kết hợp các nguyên tắc bảo mật truyền thống như phân tách nguồn (origin isolation) với các cơ chế mới như lọc hành vi, phân quyền AI, kiểm tra nội dung độc lập và minh bạch hóa hành động đã tạo nên nền tảng vững chắc cho trải nghiệm GenAI trong trình duyệt. Công ty cũng cam kết sẽ tiếp tục cải tiến hệ thống qua từng phiên bản và hợp tác chặt chẽ với cộng đồng an ninh mạng.
Dù Google đã đưa ra nhiều biện pháp chủ động, các tổ chức an ninh như Gartner và Trung tâm An ninh mạng Quốc gia Anh (NCSC) vẫn tỏ ra thận trọng. Gartner khuyến cáo doanh nghiệp nên tạm thời chặn hoàn toàn việc sử dụng trình duyệt AI cho đến khi các rủi ro như thao túng hành vi, rò rỉ dữ liệu và hành động sai lệch được kiểm soát hiệu quả. Theo Gartner, nguy cơ tiềm ẩn không chỉ nằm ở kẻ xấu mà còn đến từ chính nhân viên - những người có thể dùng AI để "né" các tác vụ nhàm chán như làm bài kiểm tra an ninh mạng bắt buộc hoặc tự động hóa quy trình mà không thông qua chính sách kiểm soát.
Trong khi đó, NCSC cảnh báo rằng prompt injection là một dạng lỗ hổng khó có thể loại bỏ hoàn toàn, vì bản thân mô hình ngôn ngữ lớn hiện tại chưa có cơ chế phân tách rõ ràng giữa hướng dẫn và dữ liệu đầu vào trong prompt. Do đó, các cơ chế bảo vệ cần dựa vào phương pháp kiểm soát hành vi mang tính quyết định hơn là chỉ dựa vào khả năng của mô hình AI./.
