Ai2 phát hành các mô hình ngôn ngữ mới cạnh tranh với Llama của Meta
Vừa qua, tổ chức nghiên cứu AI phi lợi nhuận Ai2, được thành lập bởi cố Paul Allen, đã cho ra mắt OLMo 2, một dòng sản phẩm mới trong chuỗi mô hình ngôn ngữ OLMo, hứa hẹn sẽ tạo ra cú sốc trong lĩnh vực này. OLMo, viết tắt cho "Mô hình ngôn ngữ mở", là một trong số ít mô hình ngôn ngữ có thể được tái tạo hoàn toàn từ đầu đến cuối.
OLMo 2 không chỉ là một sản phẩm đầy tiềm năng mà còn đáp ứng định nghĩa về AI nguồn mở của Sáng kiến Nguồn mở. Điều này có nghĩa là toàn bộ quy trình phát triển OLMo 2, từ công cụ đến dữ liệu, đều được công khai, tạo điều kiện cho cộng đồng nghiên cứu có thể truy cập và sử dụng. Ai2 đã xác nhận rằng “OLMo 2 [đã] được phát triển từ đầu đến cuối với dữ liệu đào tạo mở và dễ tiếp cận, mã đào tạo nguồn mở, công thức đào tạo có thể tái tạo, đánh giá minh bạch, điểm kiểm tra trung gian, v.v.”
Nguồn hình ảnh: Peresmeh / Hình ảnh Getty
Dòng OLMo 2 gồm hai phiên bản với số lượng tham số khác nhau: OLMo 7B với 7 tỷ tham số và OLMo 13B với 13 tỷ tham số. Số lượng tham số này tương ứng với khả năng giải quyết vấn đề của mô hình, trong đó, các mô hình có nhiều tham số thường thể hiện hiệu suất tốt hơn.
Các mô hình OLMo 2 được thiết kế để thực hiện nhiều tác vụ ngôn ngữ khác nhau, bao gồm trả lời câu hỏi, tóm tắt văn bản và viết mã. Để phát triển những mô hình này, Ai2 đã sử dụng một tập dữ liệu khổng lồ lên tới 5 nghìn tỷ token, bao gồm các trang web đã được lọc ra để đảm bảo chất lượng, các bài báo học thuật, cũng như các diễn đàn thảo luận và tài liệu toán học.
Ai2 tự hào khẳng định rằng “chúng tôi không chỉ quan sát thấy sự cải thiện đáng kể về hiệu suất trên tất cả các tác vụ so với mô hình OLMo trước đó mà đáng chú ý, OLMo 2 7B còn vượt trội hơn LLama 3.1 8B”, cho thấy OLMo 2 có khả năng cạnh tranh đáng kể với các mô hình mở khác trong ngành công nghiệp AI. Tất cả các mô hình OLMo 2, cùng với các thành phần liên quan, đã được phát hành công khai và có thể tải xuống từ trang web của Ai2 với giấy phép Apache 2.0, cho phép sử dụng cho các mục đích thương mại.
Nguồn hình ảnh: Ai2
Ngoài ra, trong bối cảnh gần đây có nhiều tranh luận xung quanh vấn đề an toàn của các mô hình mở, đặc biệt là việc các mô hình như Llama có thể được sử dụng cho những mục đích không mong muốn, kỹ sư Dirk Groeneveld từ Ai2 đã chia sẻ rằng ông tin tưởng vào lợi ích lớn hơn mà mô hình mở mang lại. Ông phát biểu: “Đúng vậy, có khả năng các mô hình mở có thể bị sử dụng không đúng cách hoặc cho các mục đích không mong muốn. Tuy nhiên, cách tiếp cận này cũng thúc đẩy những tiến bộ kỹ thuật dẫn đến các mô hình đạo đức hơn và làm giảm sự tập trung quyền lực, tạo ra quyền truy cập công bằng hơn”.
Với những đặc điểm nổi bật và cam kết về phát triển nguồn mở, OLMo 2 hứa hẹn sẽ tạo ra những ảnh hưởng tích cực không chỉ trong cộng đồng nghiên cứu mà còn trong ứng dụng thực tiễn của công nghệ AI.