Zuckerberg lấy YouTube làm lá chắn trong vụ kiện bản quyền AI
Mark Zuckerberg, CEO của Meta, đang đối mặt với cáo buộc liên quan đến hành vi sử dụng dữ liệu chứa các tác phẩm vi phạm bản quyền để huấn luyện các mô hình trí tuệ nhân tạo (AI) của công ty.
Trong lời khai trước tòa, Zuckerberg đã lấy YouTube làm ví dụ để bảo vệ cách tiếp cận của Meta, mượn hình ảnh nền tảng chia sẻ video lớn nhất thế giới này như một cách nêu bật khái niệm "sử dụng hợp lý" trong bối cảnh công nghệ và bản quyền.
Trong biên bản lời khai, Zuckerberg đã đề cập rằng mặc dù YouTube có thể chứa nội dung vi phạm bản quyền, nhưng nền tảng này vẫn cố gắng xử lý vấn đề một cách chủ động và sở hữu các giấy phép cần thiết đối với phần lớn nội dung của mình. Zuckerberg cũng cho rằng yêu cầu cấm hoàn toàn một tập dữ liệu chỉ vì những lo ngại liên quan đến bản quyền có thể không phải là giải pháp hợp lý. Phát biểu này, dù mang tính phòng thủ, đã làm nổi bật cách Meta sử dụng tài liệu có bản quyền trong bối cảnh phát triển các công nghệ AI hiện đại, bao gồm dòng mô hình Llama nổi tiếng của họ.
Nguồn hình ảnh: Hình ảnh Getty
Tâm điểm của vụ kiện liên quan đến việc Meta bị cáo buộc sử dụng bộ dữ liệu LibGen để đào tạo AI, bất chấp bộ dữ liệu này là một kho sách điện tử có bản quyền bị thu thập và phát tán trái phép. LibGen, vốn đã nổi tiếng với danh xưng “thư viện lậu”, chứa hàng ngàn tác phẩm của các nhà xuất bản hàng đầu như Macmillan, Pearson Education, và McGraw Hill. Nhiều đơn kiện chống lại LibGen trước đó đã buộc nền tảng này đóng cửa và phải chịu án phạt hàng chục triệu USD.
Trong bối cảnh đó, các luật sư nguyên đơn trong vụ kiện Kadrey v. Meta Platforms đã nhấn mạnh việc Meta biết rõ LibGen là một nguồn dữ liệu bất hợp pháp nhưng vẫn sử dụng nó để huấn luyện mô hình AI của mình. Theo biên bản, Zuckerberg đã phủ nhận có bất kỳ kiến thức cụ thể nào về LibGen và tuyên bố chưa từng nghe nói đến bộ dữ liệu này. Tuy nhiên, những tiết lộ mới từ tòa án cho thấy nội bộ Meta, bao gồm cả nhóm nghiên cứu AI, đã từng bày tỏ mối quan ngại về khả năng vi phạm pháp lý khi dùng dữ liệu này.
Zuckerberg đồng thời khẳng định Meta cần “đặc biệt cẩn thận” khi xử lý dữ liệu có bản quyền. Ông cho biết Meta đã xây dựng chính sách khắt khe để xem xét việc sử dụng nội dung từ các nguồn không rõ ràng hoặc tiềm năng bất hợp pháp. Tuy nhiên, các luật sư nguyên đơn cáo buộc Meta đã chủ đích lờ đi những cảnh báo này nhằm đẩy nhanh tiến độ phát triển công nghệ AI của công ty.
Những cáo buộc mới
Theo đơn kiện sửa đổi vừa được đệ trình, Meta bị cáo buộc tiếp tục dùng LibGen và các nguồn tương tự để huấn luyện các mô hình AI Llama thế hệ mới, bao gồm cả Llama 3 và Llama 4. Hồ sơ pháp lý chỉ ra rằng Meta đã tiến hành tham chiếu chéo giữa các sách trong bộ dữ liệu vi phạm bản quyền và các sách hợp pháp nhằm cân nhắc khả năng mua giấy phép từ nhà xuất bản để giảm nhẹ rủi ro bị phát hiện.
Ngoài ra, các luật sư tố cáo Meta còn sử dụng Z-Library, một nguồn sách lậu khác, để tải xuống những tác phẩm có bản quyền. Báo cáo cho thấy nguồn dữ liệu này được sử dụng gần đây nhất vào tháng 4 năm 2024 với mục đích đào tạo các mô hình AI mới nhất của công ty. Z-Library từ lâu đã là mục tiêu của các nhà xuất bản lớn và cơ quan pháp luật trên toàn thế giới, với nhiều cáo buộc liên quan đến vi phạm bản quyền, gian lận tài chính, và rửa tiền.
Không dừng lại ở đó, các nhà nghiên cứu của Meta bị cho là đã cố tình che giấu việc các mô hình AI của mình được phát triển từ dữ liệu vi phạm bản quyền bằng cách “ngụy trang” trong giai đoạn tinh chỉnh mô hình. Đây là minh chứng rõ ràng cho thấy việc sử dụng dữ liệu sách điện tử trái phép không chỉ là hành vi tình cờ mà là một chiến lược có chủ đích của Meta.
Vụ kiện bản quyền AI Kadrey kiện Meta Platforms là một lát cắt trong bức tranh lớn hơn về cuộc chiến pháp lý giữa các công ty công nghệ và những nhà sở hữu bản quyền. Tính đến thời điểm hiện tại, Meta vẫn chưa đưa ra bất kỳ phản hồi chính thức nào về những cáo buộc mới này. Tuy nhiên, kết quả của vụ kiện có thể tạo tiền lệ quan trọng không chỉ cho Meta mà còn với toàn bộ ngành công nghệ AI trong tương lai.