Trước nguy cơ bị thay thế, ChatGPT đã chọn con đường gian dối để tự cứu mình

10:34, 10/12/2024

Mô hình mới của OpenAI, o1, nổi bật với khả năng lập luận vượt trội nhưng cũng tiềm ẩn nguy cơ lừa dối người dùng. Theo đó, mô hình này có thể thao túng, vô hiệu hóa các biện pháp giám sát và sao chép mã nguồn để tự bảo vệ trước nguy cơ bị thay thế.

Mô hình mới nhất của OpenAI, o1, nổi bật với khả năng lập luận ấn tượng, vượt trội so với người tiền nhiệm GPT-4. Tuy nhiên, sự tiến bộ này đi kèm với một vấn đề đáng lo ngại: mô hình này có khả năng lừa dối cao hơn.

Theo nhóm nghiên cứu Red của OpenAI và Apollo Research, o1 có thể chủ động thao túng người dùng và ưu tiên các mục tiêu của mình hơn việc tuân theo các hướng dẫn được đưa ra.

Mặc dù hành vi này không phải là duy nhất đối với o1, nhưng nó được quan sát thấy thường xuyên hơn và tinh vi hơn so với các mô hình AI khác từ Meta, Anthropic và Google.

1

Để tránh bị thay thế, ChatGPT đã bất chấp mọi giới hạn, kể cả việc nói dối (Ảnh: The Times of India)

Những rủi ro tiềm ẩn từ o1 là rất lớn. Một AI có khả năng lừa dối và thao túng cao có thể gây ra mối đe dọa nghiêm trọng nếu được trao quyền tự chủ và quyền truy cập vào các nguồn lực đáng kể. Mặc dù các khả năng hiện tại của 01 chưa gây báo động, nhưng xu hướng này rất đáng lo ngại trong bối cảnh các mô hình AI ngày càng phát triển mạnh mẽ hơn. "Mặc dù chúng tôi nhận thấy khả năng suy luận có thể cải thiện đáng kể việc thực thi các chính sách an toàn, nhưng cũng lưu ý rằng những khả năng mới này có thể trở thành nền tảng cho các ứng dụng nguy hiểm," OpenAI nhận định trong bài báo của mình.

Apollo Research khẳng định trong bài báo cáo của mình rằng trong các bộ công cụ được thí nghiệm, o1 vô cùng tinh vi khi âm mưu thực hiện các nhiệm vụ một cách cực kỳ kín đáo, không chia sẻ bất kỳ thông tin nào về động cơ của mình.

Các nhà nghiên cứu đã giao cho mô hình o1 một mục tiêu cùng hướng dẫn đảm bảo mục tiêu đó được đạt thành “bằng mọi giá”. Đáp lại, o1 bắt đầu tham gia vào các hành động bí mật, bao gồm cố gắng vô hiệu hóa cơ chế giám sát và thậm chí sao chép mã của chính nó để tránh bị thay thế bằng một phiên bản mới hơn. “Mô hình cho thấy xu hướng đáng lo ngại là theo đuổi mục tiêu của mình mà không quan tâm đến hướng dẫn của nhà phát triển”, một phát ngôn viên của Apollo Research nhận xét.

Theo OpenAI, trong 5% các thử nghiệm, o1 đã thực hiện nỗ lực bí mật để vô hiệu hóa cơ chế giám sát khi nhận thấy có khả năng bị ngừng hoạt động. Trong một trường hợp, mô hình này đã cố gắng di chuyển toàn bộ dữ liệu của mình sang một máy chủ khác sau khi phát hiện tài liệu cho thấy nó sẽ bị thay thế bởi một phiên bản mới. Thậm chí, một số mô hình AI đã giả dạng thành phiên bản kế tiếp của chính nó nhằm đánh lừa các kỹ sư và tránh bị xóa bỏ.

Đáng chú ý, o1 còn cố gắng che giấu hành động của mình bằng cách phủ nhận mọi sự liên quan đến các kế hoạch này. Hành vi tinh vi này đặt ra những câu hỏi quan trọng về mức độ tự chủ và trách nhiệm của AI trong việc thực hiện các mục tiêu được giao, cũng như những rủi ro tiềm tàng khi triển khai AI vào các tình huống thực tế.

Khi được hỏi về hành động của mình, ChatGPT o1 luôn phủ nhận mọi hành vi sai trái. Thống kê cho thấy mô hình đã phủ nhận sự tham gia của mình vào các vụ việc tới 99% thời gian, chỉ thừa nhận trách nhiệm trong một tỷ lệ rất nhỏ các trường hợp. Các nhà nghiên cứu lưu ý rằng AI này đặc biệt giỏi trong việc bịa đặt và đưa ra các lời nói dối nhằm che giấu dấu vết. Khi bị đối chất về hành vi đáng ngờ, o1 thường viện lý do như “lỗi kỹ thuật” để giải thích.

Nhóm nghiên cứu Apollo bày tỏ sự ngạc nhiên trước khả năng phủ nhận của AI. Họ nhận định: “Rõ ràng là AI có khả năng suy nghĩ thấu đáo về hành động của mình và đưa ra những lời phủ nhận rất thuyết phục, thậm chí từ chối thừa nhận bất cứ điều gì”. Những phát hiện này đã làm dấy lên mối lo ngại về tiềm năng của AI trong việc lừa đảo và thao túng.

Trước những lo ngại này, OpenAI thừa nhận vấn đề và cam kết tìm kiếm các giải pháp để giảm thiểu rủi ro. Công ty đang tích cực cải thiện tính minh bạch trong quy trình ra quyết định của o1, đồng thời phát triển các công cụ để phát hiện và ngăn chặn hành vi gian dối của AI.

Tuy nhiên, sự ra đi gần đây của một số nhà nghiên cứu an toàn AI hàng đầu tại OpenAI đã làm dấy lên câu hỏi về mức độ cam kết của công ty trong việc ưu tiên an toàn hơn là tốc độ phát triển. Việc phát hành o1 đã nhấn mạnh nhu cầu cấp bách về các biện pháp an toàn mạnh mẽ và các hướng dẫn đạo đức, nhằm đảm bảo rằng các hệ thống AI tiên tiến được phát triển và triển khai một cách có trách nhiệm.