NVIDIA đối mặt cáo buộc dùng 'sách lậu' trong đào tạo AI
Một thẩm phán liên bang Mỹ vừa cho phép tiếp tục phần lớn vụ kiện tập thể nhằm vào Tập đoàn công nghệ NVIDIA liên quan đến cáo buộc hãng sử dụng sách có bản quyền trong dữ liệu đào tạo mô hình AI khi chưa được phép.
Tòa án liên bang khu vực Bắc California vừa bác phần lớn yêu cầu hủy kiện của NVIDIA trong vụ kiện bản quyền do ba tác giả Brian Keene, Abdi Nazemian và Stewart O’Nan khởi xướng liên quan hoạt động huấn luyện trí tuệ nhân tạo (AI).
Trong phán quyết ngày 6/5, Thẩm phán Jon Tigar cho rằng các nguyên đơn đã đưa ra đủ cơ sở để tiếp tục theo đuổi các cáo buộc vi phạm bản quyền trực tiếp và vi phạm bản quyền gián tiếp đối với NVIDIA.

Diễn biến mới của vụ kiện giúp các chủ sở hữu bản quyền có thêm lợi thế trước NDIVIA. Ảnh: Manu Fernandez/AP
Theo đơn kiện, NVIDIA đã sử dụng các bộ dữ liệu chứa sách bị sao chép trái phép để huấn luyện nhiều mô hình ngôn ngữ lớn thuộc dòng Megatron, bao gồm Megatron 345M, NeMo GPT-3 10B, InstructRetro-48B, Retro-48B và Nemotron-4 15B.
Trọng tâm vụ việc là bộ dữ liệu “The Pile”, trong đó có tập con Books3 gồm gần 200.000 đầu sách bị cho là lấy từ Bibliotik, một “thư viện bóng tối” chuyên lưu trữ sách vi phạm bản quyền. Các tác giả cho rằng tác phẩm của họ xuất hiện trong Books3 và đã bị sử dụng mà không xin phép.
Phía NVIDIA đề nghị tòa xem xét một “model card” đăng trên website của hãng nhằm chứng minh Megatron 345M chỉ được huấn luyện bằng những phần của The Pile không chứa Books3. Tuy nhiên, Thẩm phán Tigar từ chối xem xét tài liệu này ở giai đoạn đầu của vụ kiện.
Ông cho rằng việc dựa vào các tài liệu ngoài hồ sơ tố tụng có thể khiến những khiếu nại có cơ sở bị bác bỏ trước khi nguyên đơn có cơ hội thu thập chứng cứ thông qua quá trình điều tra pháp lý.
Không xem xét tài liệu do NVIDIA cung cấp, tòa nhận định các tác giả đã liên kết hợp lý giữa tác phẩm của họ và dữ liệu huấn luyện AI. Theo hồ sơ vụ án, Books3 chiếm khoảng 12% bộ dữ liệu The Pile và Megatron 345M được đào tạo trên bộ dữ liệu này.
Tòa cũng cho phép tiếp tục các phiên tòa xử lý cáo buộc vi phạm bản quyền gián tiếp. Các nguyên đơn cho rằng NVIDIA đã cung cấp cho khách hàng, trong đó có Amazon, Writer và Persimmon AI Labs, những đoạn mã được thiết kế nhằm tự động tải xuống và xử lý The Pile phục vụ phát triển AI.
NVIDIA phản bác rằng nền tảng NeMo Megatron Framework có nhiều mục đích sử dụng hợp pháp và không được quảng bá như công cụ vi phạm bản quyền.
Tuy nhiên, Thẩm phán Tigar cho rằng cần tách biệt giữa toàn bộ nền tảng và các đoạn mã cụ thể bị cáo buộc vi phạm. Theo ông, nguyên đơn đã lập luận rằng những đoạn mã này “không có mục đích nào khác ngoài việc đẩy nhanh quá trình vi phạm”.
Tòa cũng đồng tình rằng các nguyên đơn đã nêu ra những ví dụ cụ thể về hành vi vi phạm của khách hàng sử dụng công cụ do NVIDIA cung cấp, thay vì chỉ đưa ra nghi ngờ chung chung.
Dù vậy, một phần yêu cầu khởi kiện không được chấp nhận là cáo buộc “vi phạm bản quyền thay mặt”. Theo thẩm phán, nguyên đơn chưa chứng minh được NVIDIA có quyền kiểm soát trực tiếp hành vi của khách hàng sau khi họ tự truy cập The Pile.
Tòa cũng cho rằng các tác giả chưa chứng minh được việc tiếp cận tài liệu vi phạm bản quyền là yếu tố chính thu hút khách hàng sử dụng dịch vụ của NVIDIA. Phần yêu cầu này bị bác nhưng được phép sửa đổi và nộp lại trong vòng 21 ngày.
Vụ kiện được xem là một trong nhiều tranh chấp pháp lý quan trọng đang định hình giới hạn sử dụng dữ liệu có bản quyền trong quá trình huấn luyện AI tạo sinh. Kết quả vụ việc có thể ảnh hưởng lớn đến cách các công ty AI thu thập và sử dụng dữ liệu để phát triển mô hình trong tương lai.
