Tin thế giới

Trang chủ Nhìn ra thế giới

xAI có nói dối về điểm chuẩn của Grok 3 không?

17:06, 24/02/2025

Cuộc tranh cãi về tính minh bạch trong báo cáo hiệu suất AI đang nóng lên khi OpenAI và xAI của Elon Musk đối đầu trực tiếp.

Mọi chuyện bắt đầu khi một nhân viên OpenAI tố cáo xAI công bố kết quả chuẩn mực "méo mó" cho Grok 3 – mô hình AI mới nhất của họ.

Trong báo cáo, xAI đăng biểu đồ so sánh Grok 3 Reasoning Beta và Grok 3 mini Reasoning vượt trội o3-mini-high của OpenAI trên bộ AIME 2025 – tập hợp bài toán khó từ kỳ thi Toán học Mời Hoa Kỳ. Tuy nhiên, chi tiết then chốt bị che khuất: OpenAI sử dụng phương pháp cons@64 (thống nhất 64 lần thử) để tối ưu điểm số, trong khi xAI chỉ công bố kết quả ở lần thử đầu tiên.

Bức tranh trở nên phức tạp khi phân tích sâu: Ở chế độ @1 không tối ưu, Grok 3 thực sự đạt điểm thấp hơn đối thủ. Đáng chú ý, tốc độ xử lý của Grok 3 Reasoning Beta còn chậm hơn cả phiên bản tiêu chuẩn o1 của OpenAI.

Dù vậy, xAI vẫn quảng cáo Grok 3 là "AI thông minh nhất thế giới". Đáp trả, đồng sáng lập xAI Igor Babushkin chỉ ra rằng chính OpenAI từng sử dụng thủ thuật tương tự khi so sánh các phiên bản nội bộ, biến cuộc tranh luận thành trận đấu "gậy ông đập lưng ông".

Giới chuyên gia như Nathan Lambert chỉ ra vấn đề cốt lõi: Các chuẩn mực AI hiện tại đang bỏ qua yếu tố then chốt – chi phí tính toán và hiệu quả tài nguyên.

Liệu thành tích ấn tượng có đến từ thuật toán vượt trội hay đơn thuần là đốt tiền đầu tư phần cứng? Câu hỏi này vẫn bỏ ngỏ, phơi bày nghịch lý trong ngành AI: Những con số hào nhoáng đôi khi che khuất thước đo thực sự về năng lực hệ thống

Theo techcrunch.com Copy link

Link bài gốc Lấy link! https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/

Bài khác

Australia xây dựng bộ tiêu chuẩn AI quốc gia, tăng cường quản trị và phát triển có trách nhiệm

Australia xây dựng bộ tiêu chuẩn AI quốc gia, tăng cường quản trị và phát triển có trách nhiệm

02:19 pm, 21/07/2026

Trung Quốc và Anh căng thẳng vì vụ quốc hữu hóa hãng thép Britsh Steel

Trung Quốc và Anh căng thẳng vì vụ quốc hữu hóa hãng thép Britsh Steel

02:07 pm, 21/07/2026

Thẩm phán Mỹ phê duyệt thỏa thuận hòa giải 1,5 tỷ USD của Anthropic trong vụ kiện bản quyền

Thẩm phán Mỹ phê duyệt thỏa thuận hòa giải 1,5 tỷ USD của Anthropic trong vụ kiện bản quyền

01:22 pm, 21/07/2026

Giao thông ở eo biển Hormuz lại giảm mạnh

Giao thông ở eo biển Hormuz lại giảm mạnh

01:22 pm, 21/07/2026

Nhu cầu về điện và nước thử thách nỗ lực xây dựng trung tâm chip AI ngoài Seoul của Hàn Quốc

Nhu cầu về điện và nước thử thách nỗ lực xây dựng trung tâm chip AI ngoài Seoul của Hàn Quốc

12:08 pm, 21/07/2026

Các hãng sản xuất chip hướng tới mức tăng lợi nhuận lớn, nhưng liệu như vậy đã đủ?

Các hãng sản xuất chip hướng tới mức tăng lợi nhuận lớn, nhưng liệu như vậy đã đủ?

11:36 am, 21/07/2026

Trung Quốc và Thái Lan hướng tới hợp tác công nghệ sâu rộng hơn để thúc đẩy

Trung Quốc và Thái Lan hướng tới hợp tác công nghệ sâu rộng hơn để thúc đẩy "tương lai chung thịnh vượng"

11:30 am, 21/07/2026

Google lên kế hoạch sản xuất chip mới để vận hành các mô hình Gemini hiệu quả hơn, theo báo cáo từ The Information

Google lên kế hoạch sản xuất chip mới để vận hành các mô hình Gemini hiệu quả hơn, theo báo cáo từ The Information

10:57 am, 21/07/2026

Những tác động từ việc phiến quân Houthi gây cản trở ở Biển Đỏ

Những tác động từ việc phiến quân Houthi gây cản trở ở Biển Đỏ

10:40 am, 21/07/2026

Ủy ban thuộc Quốc hội Pháp thông qua lệnh cấm mạng xã hội đối với trẻ dưới 15 tuổi

Ủy ban thuộc Quốc hội Pháp thông qua lệnh cấm mạng xã hội đối với trẻ dưới 15 tuổi

10:37 am, 21/07/2026

Bài mới nhất

Trái phiếu doanh nghiệp được xếp hạng tín nhiệm chiếm 1,6% tổng giá trị phát hành

Trái phiếu doanh nghiệp được xếp hạng tín nhiệm chiếm 1,6% tổng giá trị phát hành

Cơ hội mới, động lực mới cho doanh nghiệp FDI từ Nghị quyết 10

Cơ hội mới, động lực mới cho doanh nghiệp FDI từ Nghị quyết 10

Hơn 80 đơn vị máu được hiến tặng trong chương trình Hiến máu nhân đạo

Hơn 80 đơn vị máu được hiến tặng trong chương trình Hiến máu nhân đạo

Xe điện, xe đạp điện: Những tiêu chí an toàn người mua cần quan tâm

Xe điện, xe đạp điện: Những tiêu chí an toàn người mua cần quan tâm

Australia xây dựng bộ tiêu chuẩn AI quốc gia, tăng cường quản trị và phát triển có trách nhiệm

Australia xây dựng bộ tiêu chuẩn AI quốc gia, tăng cường quản trị và phát triển có trách nhiệm

Dòng tiền quá yếu, đà phục hồi “lịm” dần

Dòng tiền quá yếu, đà phục hồi “lịm” dần

Các ETF tiếp tục rút ròng ồ ạt khỏi Việt Nam do hiệu suất đầu tư yếu

Các ETF tiếp tục rút ròng ồ ạt khỏi Việt Nam do hiệu suất đầu tư yếu

Giám sát chất lượng sản phẩm, hàng hóa thông qua AI và dữ liệu lớn

Giám sát chất lượng sản phẩm, hàng hóa thông qua AI và dữ liệu lớn

Trung Quốc và Anh căng thẳng vì vụ quốc hữu hóa hãng thép Britsh Steel

Trung Quốc và Anh căng thẳng vì vụ quốc hữu hóa hãng thép Britsh Steel

Thẩm phán Mỹ phê duyệt thỏa thuận hòa giải 1,5 tỷ USD của Anthropic trong vụ kiện bản quyền

Thẩm phán Mỹ phê duyệt thỏa thuận hòa giải 1,5 tỷ USD của Anthropic trong vụ kiện bản quyền

Phát triển dược liệu và công nghiệp dược liệu thành ngành kinh tế chiến lược quốc gia

Phát triển dược liệu và công nghiệp dược liệu thành ngành kinh tế chiến lược quốc gia

Giao thông ở eo biển Hormuz lại giảm mạnh

Giao thông ở eo biển Hormuz lại giảm mạnh

Nhu cầu về điện và nước thử thách nỗ lực xây dựng trung tâm chip AI ngoài Seoul của Hàn Quốc

Nhu cầu về điện và nước thử thách nỗ lực xây dựng trung tâm chip AI ngoài Seoul của Hàn Quốc

Các hãng sản xuất chip hướng tới mức tăng lợi nhuận lớn, nhưng liệu như vậy đã đủ?

Các hãng sản xuất chip hướng tới mức tăng lợi nhuận lớn, nhưng liệu như vậy đã đủ?

Thiết bị công nghệ thông tin lưu thông trên thị trường phải đáp ứng quy chuẩn kỹ thuật

Thiết bị công nghệ thông tin lưu thông trên thị trường phải đáp ứng quy chuẩn kỹ thuật