Hàn Quốc: Dự án mô hình AI quốc gia vướng tranh cãi đạo nhái
Theo Korea Times, dự án mô hình nền tảng trí tuệ nhân tạo (AI) quốc gia của Hàn Quốc đang phải đối mặt với làn sóng cáo buộc các ứng viên hàng đầu đã 'vay mượn' những thành phần quan trọng từ các mô hình AI của Trung Quốc.
Thông tin từ Korea Times cho biết, có tới hai trong năm liên danh do Naver Cloud và Upstage dẫn đầu, đã vướng vào tranh cãi liên quan đến việc đáp ứng yêu cầu cốt lõi của dự án là phải được phát triển hoàn toàn từ đầu.
Naver Cloud bị chỉ trích sau khi xuất hiện các ý kiến trong cộng đồng lập trình viên hồi đầu tuần cho rằng mô hình chủ lực của hãng cho dự án, HyperCLOVA X SEED 32B Think, có nhiều điểm tương đồng đáng kể với mô hình ngôn ngữ lớn mã nguồn mở Qwen 2.4 của Alibaba, cụ thể ở bộ mã hóa thị giác. Bộ mã hóa thị giác là thành phần xử lý hình ảnh và video thành dữ liệu để AI có thể hiểu.
Theo đó, mức độ tương đồng cosine và hệ số tương quan Pearson, hai phương pháp so sánh được sử dụng phổ biến, giữa các giá trị của bộ mã hóa thị giác trong hai mô hình lần lượt vượt 99,5% và 98,9%, cho thấy các mô hình có cấu trúc gần như giống hệt nhau.

Người dân tham quan gian hàng của Naver Cloud trong sự kiện giới thiệu dự án mô hình nền tảng trí tuệ nhân tạo (AI) quốc gia tại Coex ở phía nam Seoul, ngày 30/12/2025
Naver Cloud thừa nhận có sử dụng các mô-đun mã nguồn mở bên ngoài, nhưng bác bỏ cáo buộc sao chép mô hình của Alibaba, cho rằng đây là một quyết định mang tính chiến lược và kỹ thuật. Công ty cho biết họ lựa chọn “áp dụng bộ mã hóa bên ngoài đã được kiểm chứng để tối ưu khả năng tương thích với hệ sinh thái công nghệ toàn cầu và nâng cao hiệu quả hệ thống”, đồng thời nhấn mạnh rằng bộ máy suy luận cốt lõi của mô hình được phát triển hoàn toàn nội bộ.
Naver Cloud cũng lập luận rằng đổi mới thực sự của họ nằm ở việc tích hợp các khả năng đa phương thức, từ văn bản, âm thanh đến hình ảnh, trong một kiến trúc thống nhất, và khẳng định quyết định này không xuất phát từ sự thiếu hụt năng lực công nghệ. “Naver sở hữu các công nghệ thị giác nguyên bản của riêng mình như Vuclip”, công ty cho biết thêm.
Tranh cãi càng trở nên gay gắt sau khi Naver Cloud công bố báo cáo kỹ thuật của mô hình HyperCLOVA X 8B Omni trên kho lưu trữ truy cập mở toàn cầu arXiv, trong đó tiết lộ rằng bộ mã hóa thị giác của mô hình sử dụng kiến trúc Qwen2.5-VL của Alibaba, còn bộ mã hóa âm thanh dựa trên mô hình Whisper của OpenAI.
Naver Cloud nhấn mạnh rằng các bộ mã hóa thị giác chỉ đóng vai trò chuyển đổi hình ảnh và video, đồng thời khẳng định mô hình nền tảng, bộ phận chịu trách nhiệm về suy luận và bản sắc, vẫn hoàn toàn thuộc sở hữu độc quyền của công ty.

CEO Kim Sung-hoon ủa Upstage tại buổi họp báo của hôm 16/4/2025
Được biết, một tranh cãi tương tự trước đó cũng đã bao quanh Upstage vào tuần trước với mô hình Solar Open 100B. CEO Sionic AI, ông Ko Suk-hyun, cáo buộc mô hình của Upstage tái sử dụng các yếu tố từ GLM-4.5-Air của Zhipu Trung Quốc, dựa trên mức độ tương đồng 96,8% trong các tham số LayerNorm giữa hai mô hình. Tham số LayerNorm là các thiết lập bên trong mô hình AI giúp cân bằng và ổn định giá trị dữ liệu khi thông tin đi qua từng lớp, hỗ trợ mô hình học tập và đưa ra dự đoán một cách ổn định.
Upstage ngay lập tức bác bỏ các cáo buộc bằng cách công khai quy trình phát triển và tổ chức một phiên xác minh với các chuyên gia, được phát trực tuyến vào thứ Sáu.
CEO Kim Sung-hoon của Upstage cho rằng những điểm tương đồng này không có ý nghĩa về mặt thống kê, đồng thời khẳng định mô hình được phát triển từ đầu thông qua một quy trình độc lập hoàn toàn, từ thu thập dữ liệu, thiết kế kiến trúc, huấn luyện đến tinh chỉnh.
Trong phiên xác minh, ông cho biết phần trùng lặp chỉ chiếm 0,0004% toàn bộ mạng lưới mô hình.
Trong khi tranh cãi liên quan đến Upstage nhanh chóng lắng xuống sau khi ông Ko công khai xin lỗi, các cơ quan liên quan và chuyên gia vẫn dành sự giám sát đặc biệt cho Naver Cloud, trong bối cảnh Bộ Khoa học và Công nghệ Thông tin và Truyền thông chuẩn bị hoàn tất vòng đánh giá đầu tiên vào ngày 15/1 để quyết định liên danh nào trong số năm liên danh sẽ bị loại đầu tiên khỏi dự án.
