Alibaba ra mắt "đối thủ" mới cho mô hình lý luận o1 của OpenAI
Alibaba vừa phát hành QwQ-32B-Preview, một mô hình AI "lý luận" mới và là một đối thủ đáng gờm của mô hình o1 của OpenAI. Đây là mô hình AI đầu tiên cho phép tải xuống theo giấy phép mở, đánh dấu một bước tiến quan trọng trong lĩnh vực AI.
Được phát triển bởi nhóm Qwen của Alibaba, QwQ-32B-Preview sở hữu 32,5 tỷ tham số và có khả năng xử lý các lời nhắc dài lên đến khoảng 32.000 từ. Theo các thử nghiệm, mô hình này đã vượt trội hơn so với các phiên bản o1-preview và o1-mini của OpenAI trên một số bài kiểm tra tiêu chuẩn, bao gồm AIME và MATH. AIME sử dụng AI để đánh giá hiệu suất của các mô hình, trong khi MATH là một bộ bài toán có lời văn.
QwQ-32B-Preview có thể giải quyết các câu đố logic và các bài toán toán học khó nhờ khả năng "lý luận" của nó. Tuy nhiên, như chính Alibaba đã thừa nhận, mô hình vẫn chưa hoàn hảo, có thể thường xuyên chuyển đổi ngôn ngữ một cách bất ngờ, mắc kẹt trong vòng lặp và hoạt động chưa hiệu quả trong các tác vụ đòi hỏi "lý luận thông thường".
Nguồn hình ảnh: Alibaba
Điểm nổi bật của QwQ-32B-Preview và các mô hình lý luận khác là khả năng tự kiểm tra thực tế, giúp tránh được nhiều cạm bẫy mà các mô hình AI thông thường thường gặp phải. Dù vậy, việc này cũng đồng nghĩa với việc QwQ-32B-Preview có thể mất nhiều thời gian hơn để đưa ra giải pháp. Tương tự như o1 của OpenAI, mô hình này lý luận thông qua các tác vụ, lập kế hoạch và thực hiện các hành động để tìm ra câu trả lời.
QwQ-32B-Preview hiện có thể được chạy và tải xuống từ nền tảng phát triển AI Hugging Face. Nó chia sẻ một số điểm tương đồng với mô hình lý luận mới DeepSeek, như việc tránh né các chủ đề nhạy cảm về chính trị. Cả Alibaba và DeepSeek, với tư cách là các công ty Trung Quốc, phải tuân theo các quy định của cơ quan quản lý internet Trung Quốc, điều này khiến phản hồi của họ đối với các vấn đề nhạy cảm phải "phù hợp với các giá trị cốt lõi của chủ nghĩa xã hội". Chính vì lý do này, QwQ-32B-Preview đã xác nhận Đài Loan là một phần của Trung Quốc – một quan điểm gây tranh cãi nhiều nơi trên thế giới. Đặc biệt, các câu hỏi liên quan đến sự kiện Quảng trường Thiên An Môn không được mô hình này trả lời.
Được cấp phép theo giấy phép Apache 2.0, QwQ-32B-Preview có thể được sử dụng cho các ứng dụng thương mại. Tuy nhiên, chỉ một số thành phần nhất định của mô hình được phát hành, điều này làm cho việc sao chép hay tìm hiểu sâu về cơ chế hoạt động của nó trở nên khó khăn. Khái niệm “mở” trong các mô hình AI vẫn đang tranh cãi, với một khoảng giá trị từ hoàn toàn đóng (chỉ truy cập API) đến hoàn toàn mở (mô hình, trọng số, dữ liệu được công bố), và QwQ-32B-Preview nằm ở giữa quang phổ này.
Sự phát triển của mô hình lý luận thu hút nhiều sự chú ý khi có nghi vấn về hiệu quả của "luật mở rộng" — một lý thuyết cho rằng việc cung cấp thêm dữ liệu và sức mạnh tính toán sẽ dẫn đến sự cải thiện tỉ lệ thuận trong khả năng của mô hình. Các báo cáo cho thấy rằng các mô hình từ các phòng thí nghiệm AI lớn như OpenAI, Google và Anthropic không còn cải thiện đáng kể như trước nữa.
Điều này đã khơi dậy một cuộc đua tìm kiếm các phương pháp và kiến trúc phát triển AI mới. Trong đó, tính toán thời gian thử nghiệm (hay còn gọi là tính toán suy luận) trở thành một trong những giải pháp tiềm năng. Hình thức này cho phép các mô hình có thêm thời gian xử lý để hoàn thành các tác vụ, hỗ trợ cho các mô hình như o1 và QwQ-32B-Preview.
Các phòng thí nghiệm lớn, bên cạnh OpenAI, đang đặt cược vào tiềm năng của tính toán thời gian thử nghiệm. Theo một báo cáo gần đây từ The Information, Google đã mở rộng đội ngũ phát triển mô hình lý luận lên khoảng 200 người, đồng thời bổ sung thêm sức mạnh tính toán cho nỗ lực này.