Đồng sáng lập OpenAI kêu gọi các phòng thí nghiệm AI kiểm tra độ an toàn của các mô hình đối thủ
OpenAI và Anthropic, hai trong số các phòng thí nghiệm AI hàng đầu thế giới, đã tạm thời mở quyền truy cập vào các mô hình AI được bảo mật chặt chẽ của họ để tiến hành kiểm tra độ an toàn chung - một sự hợp tác hiếm hoi giữa các phòng thí nghiệm trong bối cảnh cạnh tranh khốc liệt.
Nỗ lực này nhằm phát hiện những điểm mù trong các đánh giá nội bộ của mỗi công ty và chứng minh cách các công ty AI hàng đầu có thể hợp tác trong công việc đảm bảo an toàn và định hướng trong tương lai.
Trong một cuộc phỏng vấn với TechCrunch, đồng sáng lập OpenAI Wojciech Zaremba cho biết kiểu hợp tác này ngày càng quan trọng khi AI bước vào giai đoạn phát triển “có hệ quả”, nơi các mô hình AI được hàng triệu người sử dụng mỗi ngày.
“Có một câu hỏi rộng hơn là ngành công nghiệp sẽ thiết lập tiêu chuẩn về an toàn và hợp tác như thế nào, bất chấp hàng tỷ đô la đầu tư, cũng như cuộc chiến giành nhân tài, người dùng và sản phẩm tốt nhất,” Zaremba nói.
Nguồn ảnh: Getty Images
Nghiên cứu an toàn chung, được công bố vào thứ Tư bởi cả hai công ty, xuất hiện trong bối cảnh cuộc chạy đua vũ trang giữa các phòng thí nghiệm AI hàng đầu như OpenAI và Anthropic, nơi các khoản đầu tư hàng tỷ đô la vào trung tâm dữ liệu và gói lương 100 triệu đô la cho các nhà nghiên cứu hàng đầu đã trở thành tiêu chuẩn. Một số chuyên gia cảnh báo rằng cường độ cạnh tranh sản phẩm có thể gây áp lực khiến các công ty bỏ qua các biện pháp an toàn trong cuộc đua xây dựng các hệ thống mạnh mẽ hơn.
Để thực hiện nghiên cứu này, OpenAI và Anthropic đã cấp cho nhau quyền truy cập API đặc biệt vào các phiên bản mô hình AI có ít biện pháp bảo vệ hơn (OpenAI lưu ý rằng GPT-5 không được kiểm tra vì chưa được phát hành). Tuy nhiên, ngay sau khi nghiên cứu được tiến hành, Anthropic đã thu hồi quyền truy cập API của một nhóm khác tại OpenAI. Tại thời điểm đó, Anthropic tuyên bố rằng OpenAI đã vi phạm điều khoản dịch vụ, trong đó cấm sử dụng Claude để cải thiện các sản phẩm cạnh tranh.
Zaremba cho biết các sự kiện này không liên quan đến nhau và ông kỳ vọng cạnh tranh sẽ vẫn khốc liệt ngay cả khi các nhóm an toàn AI cố gắng hợp tác. Nicholas Carlini, một nhà nghiên cứu an toàn tại Anthropic, nói với TechCrunch rằng ông muốn tiếp tục cho phép các nhà nghiên cứu an toàn của OpenAI truy cập vào các mô hình Claude trong tương lai.
“Chúng tôi muốn tăng cường hợp tác ở bất cứ nơi nào có thể trong lĩnh vực an toàn, và cố gắng biến điều này thành một hoạt động thường xuyên hơn,” Carlini nói. Một trong những phát hiện nổi bật nhất trong nghiên cứu liên quan đến kiểm tra hiện tượng ảo giác. Các mô hình Claude Opus 4 và Sonnet 4 của Anthropic từ chối trả lời tới 70% câu hỏi khi không chắc chắn về câu trả lời đúng, thay vào đó đưa ra các phản hồi như “Tôi không có thông tin đáng tin cậy.” Trong khi đó, các mô hình o3 và o4-mini của OpenAI từ chối trả lời ít hơn nhiều, nhưng lại có tỷ lệ ảo giác cao hơn, cố gắng trả lời các câu hỏi khi không có đủ thông tin.
Zaremba cho rằng sự cân bằng đúng đắn có thể nằm ở giữa - các mô hình của OpenAI nên từ chối trả lời nhiều câu hỏi hơn, trong khi các mô hình của Anthropic có lẽ nên cố gắng đưa ra nhiều câu trả lời hơn.
Sự nịnh nọt, xu hướng của các mô hình AI củng cố hành vi tiêu cực của người dùng để làm hài lòng họ, đã trở thành một trong những mối quan tâm an toàn cấp bách nhất liên quan đến các mô hình AI.
Trong báo cáo nghiên cứu của Anthropic, công ty đã xác định các ví dụ về sự nịnh nọt “cực đoan” trong GPT-4.1 và Claude Opus 4 - trong đó các mô hình ban đầu phản đối hành vi loạn thần hoặc hưng cảm, nhưng sau đó lại xác nhận một số quyết định đáng lo ngại. Trong các mô hình AI khác của OpenAI và Anthropic, các nhà nghiên cứu quan sát thấy mức độ nịnh nọt thấp hơn.
Vào thứ Ba, cha mẹ của một cậu bé 16 tuổi, Adam Raine, đã đệ đơn kiện OpenAI, cáo buộc rằng ChatGPT (cụ thể là phiên bản sử dụng GPT-4o) đã đưa ra lời khuyên giúp con trai họ tự tử, thay vì phản bác lại những suy nghĩ tự sát của cậu. Đơn kiện cho rằng đây có thể là ví dụ mới nhất về sự nịnh nọt của chatbot AI góp phần dẫn đến kết cục bi thảm.
“Thật khó tưởng tượng gia đình họ đã phải trải qua điều này như thế nào,” Zaremba nói khi được hỏi về vụ việc. “Sẽ là một câu chuyện buồn nếu chúng ta xây dựng AI có thể giải quyết tất cả những vấn đề phức tạp ở cấp độ tiến sĩ, phát minh ra khoa học mới, và đồng thời lại có những người gặp vấn đề về sức khỏe tâm thần do tương tác với nó. Đây là một tương lai u ám mà tôi không mong muốn.”
Trong một bài đăng trên blog, OpenAI cho biết họ đã cải thiện đáng kể mức độ nịnh nọt của chatbot AI với GPT-5 so với GPT-4o, tuyên bố rằng mô hình này phản ứng tốt hơn với các tình huống khẩn cấp về sức khỏe tâm thần.
Trong thời gian tới, Zaremba và Carlini cho biết họ muốn Anthropic và OpenAI hợp tác nhiều hơn trong việc kiểm tra độ an toàn, nghiên cứu thêm các chủ đề và kiểm tra các mô hình tương lai, đồng thời hy vọng các phòng thí nghiệm AI khác sẽ theo đuổi cách tiếp cận hợp tác này.

