Bước đột phá của DeepSeek củng cố các mô hình AI mã nguồn mở như Llama của Meta

14:28, 04/02/2025

Mô hình trí tuệ nhân tạo mới mạnh mẽ của DeepSeek không chỉ là một chiến thắng cho Trung Quốc - mà còn là một chiến thắng cho các phiên bản mã nguồn mở của công nghệ từ các công ty như Meta, Databricks, Mistral và Hugging Face, theo các chuyên gia trong ngành đã nói chuyện với CNBC.

Omer Taha Cetin | Anadolu | Hình ảnh Getty

Tháng trước, DeepSeek đã phát hành R1, một mô hình suy luận mã nguồn mở mà họ tuyên bố là có thể cạnh tranh với hiệu suất của mô hình o1 của OpenAI bằng quy trình rẻ hơn, ít tốn năng lượng hơn.

Sự phát triển này đã khiến giá trị thị trường của Nvidia và các nhà sản xuất chip khác giảm mạnh do lo ngại rằng nó có thể dẫn đến việc giảm chi tiêu cho cơ sở hạ tầng điện toán hiệu năng cao.

DeepSeek là một phòng thí nghiệm AI của Trung Quốc tập trung vào phát triển các mô hình ngôn ngữ lớn với mục tiêu cuối cùng là đạt được trí tuệ nhân tạo tổng quát, hay AGI. Nó được thành lập vào năm 2023 bởi Lương Văn Phong, đồng sáng lập của quỹ phòng hộ định lượng tập trung vào AI, High-Flyer.

AGI đề cập một cách lỏng lẻo đến ý tưởng về một AI ngang bằng hoặc vượt trội hơn trí tuệ con người trên một loạt các nhiệm vụ.

AI mã nguồn mở là gì?

Kể từ khi ChatGPT của OpenAI xuất hiện vào tháng 11 năm 2022, các nhà nghiên cứu AI đã làm việc chăm chỉ để tìm hiểu và cải thiện những tiến bộ của công nghệ mô hình ngôn ngữ lớn nền tảng làm nền tảng cho nó.

Một lĩnh vực trọng tâm của nhiều phòng thí nghiệm là AI mã nguồn mở. Mã nguồn mở đề cập đến phần mềm có mã nguồn được cung cấp miễn phí trên web mở để có thể sửa đổi và phân phối lại.

Rất nhiều công ty từ những gã khổng lồ công nghệ như Meta đến các công ty khởi nghiệp nhỏ hơn như Mistral và Hugging Face đã đặt cược vào mã nguồn mở như một cách để cải thiện công nghệ đồng thời chia sẻ những phát triển quan trọng với cộng đồng nghiên cứu rộng lớn hơn.

DeepSeek đã trao quyền cho mã nguồn mở như thế nào

Bước đột phá công nghệ của DeepSeek chỉ làm cho trường hợp của các mô hình AI mã nguồn mở mạnh mẽ hơn, theo một số giám đốc điều hành công nghệ.

Seena Rejal, giám đốc thương mại của công ty khởi nghiệp AI NetMind, nói với CNBC rằng thành công của công ty Trung Quốc cho thấy rằng AI mã nguồn mở "không còn chỉ là một sáng kiến nghiên cứu phi thương mại mà là một giải pháp thay thế khả thi, có thể mở rộng cho các mô hình khép kín" như GPT của OpenAI.

"DeepSeek R1 đã chứng minh rằng các mô hình mã nguồn mở có thể đạt được hiệu suất hiện đại, ngang bằng với các mô hình độc quyền từ OpenAI và các công ty khác," Rejal nói với CNBC. "Điều này thách thức niềm tin rằng chỉ có các mô hình khép kín mới có thể thống trị sự đổi mới trong không gian này."

Rejal không đơn độc. Yann LeCun, nhà khoa học AI trưởng của Meta, cho biết thành công của DeepSeek thể hiện một chiến thắng cho các mô hình AI mã nguồn mở, không nhất thiết là một chiến thắng cho Trung Quốc trước Hoa Kỳ. Meta đứng sau một mô hình AI mã nguồn mở phổ biến có tên là Llama.

"Đối với những người thấy hiệu suất của DeepSeek và nghĩ rằng: 'Trung Quốc đang vượt qua Hoa Kỳ trong lĩnh vực AI.' Bạn đang đọc sai điều này. Cách đọc đúng là: 'Các mô hình mã nguồn mở đang vượt qua các mô hình độc quyền'," ông nói trong một bài đăng trên LinkedIn.

"DeepSeek đã hưởng lợi từ nghiên cứu mở và mã nguồn mở (ví dụ: PyTorch và Llama từ Meta). Họ đã đưa ra những ý tưởng mới và xây dựng chúng dựa trên công việc của người khác. Bởi vì công việc của họ được công bố và mã nguồn mở, mọi người đều có thể hưởng lợi từ nó. Đó là sức mạnh của nghiên cứu mở và mã nguồn mở."

AI mã nguồn mở đang vươn ra toàn cầu

Bị Washington cắt đứt khả năng tiếp cận các chip tiên tiến cần thiết để đào tạo và chạy các mô hình AI, Trung Quốc đã chuyển sang công nghệ mã nguồn mở để tăng sức hấp dẫn cho các mô hình AI của mình. Nhiều công ty Trung Quốc — bao gồm cả DeepSeek — đang theo đuổi các mô hình mã nguồn mở như một cách để tăng cường đổi mới và lan truyền việc sử dụng chúng.

Nhưng xu hướng các công ty chuyển sang công nghệ mã nguồn mở để thành công trong AI không chỉ giới hạn ở Trung Quốc. Ở Châu Âu, một liên minh gồm các học giả, công ty và trung tâm dữ liệu đã hợp tác phát triển một họ mô hình ngôn ngữ lớn đa ngôn ngữ hiệu năng cao, được gọi là OpenEuroLLM.

Liên minh này được dẫn dắt bởi Jan Hajič, một nhà ngôn ngữ học tính toán nổi tiếng tại Đại học Charles, Cộng hòa Séc, và Peter Sarlin, đồng sáng lập của Silo AI, một phòng thí nghiệm AI đã được nhà sản xuất chip Hoa Kỳ AMD mua lại vào năm ngoái.

Sáng kiến này là một phần của nỗ lực rộng lớn hơn cho "chủ quyền AI," trong đó các quốc gia đang khuyến khích đầu tư vào các phòng thí nghiệm AI và trung tâm dữ liệu trong nước của họ để giảm sự phụ thuộc vào Thung lũng Silicon.

Điều gì là điểm mấu chốt?

Tuy nhiên, có những nhược điểm đối với AI mã nguồn mở. Các chuyên gia cảnh báo rằng, mặc dù công nghệ mã nguồn mở là một điều tốt cho đổi mới, nhưng nó cũng dễ bị khai thác trên mạng hơn. Đó là bởi vì nó có thể được đóng gói lại và sửa đổi bởi bất kỳ ai.

Các công ty an ninh mạng đã phát hiện ra các lỗ hổng trong các mô hình AI của DeepSeek. Nghiên cứu mà Cisco công bố tuần trước cho thấy rằng R1 chứa các lỗ hổng an toàn nghiêm trọng.

Sử dụng "kỹ thuật vượt ngục thuật toán," nhóm nghiên cứu an toàn AI của Cisco cho biết họ đã khiến R1 đưa ra các phản hồi khẳng định cho một loạt các lời nhắc có hại từ HarmBench phổ biến "với tỷ lệ tấn công thành công 100%."

"DeepSeek R1 được cho là được đào tạo với một phần nhỏ ngân sách mà các nhà cung cấp mô hình biên giới khác chi cho việc phát triển mô hình của họ. Tuy nhiên, nó đi kèm với một chi phí khác: an toàn và bảo mật," các nhà nghiên cứu của Cisco, Paul Kassianik và Amin Karbasi đã viết.

Rò rỉ dữ liệu cũng là một mối quan tâm. Dữ liệu được xử lý bởi mô hình R1 của DeepSeek thông qua trang web hoặc ứng dụng của nó được gửi thẳng đến Trung Quốc. Các công ty công nghệ Trung Quốc từ lâu đã bị cáo buộc rằng Bắc Kinh sử dụng hệ thống của họ để theo dõi các thực thể và cá nhân phương Tây.

"DeepSeek, giống như các nền tảng AI tạo sinh khác, thể hiện một con dao hai lưỡi cho các doanh nghiệp và cá nhân," Matt Cooke, chiến lược gia an ninh mạng EMEA tại Proofpoint cho biết. "Mặc dù tiềm năng đổi mới là không thể phủ nhận, nhưng nguy cơ rò rỉ dữ liệu là một mối quan tâm nghiêm trọng."

"DeepSeek còn tương đối mới và sẽ cần thời gian để tìm hiểu về công nghệ; tuy nhiên, những gì chúng tôi biết là đưa dữ liệu nhạy cảm của công ty hoặc thông tin cá nhân vào các hệ thống này giống như trao cho kẻ tấn công một vũ khí đã nạp đạn," Cooke nói thêm.

Rejal của NetMind nói với CNBC rằng các mô hình AI mã nguồn mở giới thiệu các rủi ro an ninh mạng mà các doanh nghiệp cần xem xét, bao gồm các cuộc tấn công chuỗi cung ứng phần mềm, vượt ngục lời nhắc và các sự kiện "làm nhiễm độc dữ liệu" cố gắng đưa vào các thiên kiến hoặc đầu ra có hại.