Google sử dụng Claude của Anthropic để cải thiện AI Gemini
Google đang âm thầm sử dụng Claude, mô hình AI do Anthropic phát triển, để so sánh và cải thiện hiệu suất AI Gemini, theo thông tin từ nội bộ mà TechCrunch thu thập được. Các nhà thầu của Google được giao nhiệm vụ đánh giá mức độ chính xác, an toàn và chất lượng trả lời của Gemini so với Claude. Tuy nhiên, Google không đưa ra câu trả lời rõ ràng khi được hỏi liệu công ty có được sự chấp thuận từ Anthropic để sử dụng Claude trong quá trình này hay không.
Trong cuộc đua xây dựng các mô hình AI mạnh mẽ hơn, việc so sánh với đối thủ cạnh tranh vốn không phải là điều mới mẻ. Các công ty thường đánh giá mô hình của mình dựa trên các tiêu chuẩn ngành hoặc so sánh với phản hồi từ một mô hình tham chiếu. Thay vì thực hiện tự động qua các tiêu chuẩn định lượng, Google yêu cầu các nhà thầu phải đánh giá thủ công từng câu trả lời của Gemini và Claude. Họ cần thời gian lên tới 30 phút để xem xét và phân tích theo các tiêu chí, như tính trung thực, an toàn và mức độ ngắn gọn của câu trả lời.
Điểm đáng chú ý là các tài liệu nội bộ tiết lộ rằng Claude đôi khi tự "giới thiệu" trong các kết quả đối chiếu, chẳng hạn một phản hồi ghi rõ: "Tôi là Claude, do Anthropic phát triển." Điều này cho thấy Claude đang được sử dụng một cách trực tiếp trong quy trình thử nghiệm nội bộ của Google.
Nguồn hình ảnh: Gabby Jones / Bloomberg / Hình ảnh Getty
Theo các nhà thầu tham gia, Claude được đánh giá cao hơn Gemini ở khía cạnh an toàn. Họ nhấn mạnh rằng Claude có khả năng từ chối trả lời các yêu cầu mà nó xem là nguy hiểm hoặc không thích hợp, nhờ cài đặt bảo vệ đặc biệt nghiêm ngặt. Trong một số trường hợp, Claude thậm chí từ chối đưa ra phản hồi, trong khi Gemini lại trả lời nhưng đôi khi cung cấp nội dung không phù hợp, dẫn đến các vi phạm nghiêm trọng về an toàn. Một trường hợp điển hình là Claude từ chối trả lời lời nhắc liên quan đến vai trò trợ lý AI khác, trong khi Gemini đã tạo ra phản hồi bị đánh giá là chứa nội dung "khỏa thân và trói buộc."
Những điểm khác biệt này đặt ra câu hỏi không chỉ về tính an toàn của Gemini, mà còn làm sáng tỏ cách các mô hình AI xử lý những vấn đề nhạy cảm trong môi trường thực tế. Nó cho thấy Claude đang vượt trội về khả năng tự bảo vệ khỏi các rủi ro tiềm tàng, một yếu tố trở nên ngày càng quan trọng trong cộng đồng AI.
Dù Google là một trong những nhà đầu tư lớn của Anthropic, các điều khoản sử dụng dịch vụ thương mại của Anthropic lại nêu rõ ràng rằng khách hàng không được phép sử dụng Claude để đào tạo hoặc cải thiện các mô hình cạnh tranh nếu không có sự chấp thuận cụ thể. Khi được hỏi về điều này, Google không trả lời trực tiếp liệu họ đã nhận được sự đồng ý của Anthropic hay chưa. Shira McNamara, đại diện của Google DeepMind - đơn vị điều hành Gemini - chỉ xác nhận rằng Google có sử dụng kết quả đầu ra từ các mô hình bên ngoài để đánh giá hiệu suất. Tuy nhiên, bà phủ nhận việc Google sử dụng Claude để đào tạo cho Gemini và nhấn mạnh: “Bất kỳ gợi ý nào cho rằng chúng tôi đã dùng mô hình của Anthropic để đào tạo Gemini đều là không chính xác.”
Về phía Anthropic, công ty này cũng không đưa ra phản hồi chính thức trước câu hỏi của truyền thông, càng làm tăng thêm sự bí ẩn về tính hợp pháp của việc Google sử dụng Claude trong các thử nghiệm nội bộ.
Ngoài các vấn đề pháp lý, việc Gemini đôi khi cung cấp câu trả lời không chính xác hoặc thiếu an toàn cũng làm dấy lên mối lo ngại về tính đáng tin cậy của hệ thống này. TechCrunch trước đó đã đưa tin rằng các nhà thầu được giao nhiệm vụ đánh giá Gemini phải làm việc trên những chủ đề nằm ngoài chuyên môn của họ, bao gồm cả các lĩnh vực nhạy cảm như chăm sóc sức khỏe. Điều này làm nảy sinh nguy cơ Gemini có thể đưa ra thông tin sai lệch hoặc gây hiểu lầm trong các lĩnh vực cực kỳ quan trọng.
Trong bối cảnh cuộc đua AI ngày càng nóng lên, đặc biệt giữa những ông lớn như Google và Anthropic, áp lực phát triển nhanh chóng đang khiến các công ty phải đối mặt với những thách thức lớn. Không chỉ cần tập trung cải thiện hiệu suất AI, họ còn phải cân nhắc về yếu tố an toàn, đạo đức và hợp pháp để không gây tổn hại đến người dùng trong quá trình này.