Google: Tranh chấp bản quyền trong huấn luyện AI nên đánh giá ở đầu ra thay vì dữ liệu đầu vào
Trước làn sóng pháp lý về sở hữu trí tuệ trong đào tạo các công cụ trí tuệ nhân tạo (AI), Google mới đây đã lên tiếng công bố quan điểm khẳng định huấn luyện AI bằng dữ liệu công khai là "sử dụng hợp lý", tranh chấp bản quyền nên đánh giá ở đầu ra thay vì dữ liệu đầu vào.
Trong bối cảnh các vụ kiện bản quyền liên quan đến trí tuệ nhân tạo (AI) ngày càng gia tăng, Google vừa chính thức công bố quan điểm rằng việc sử dụng dữ liệu công khai trên Internet để huấn luyện mô hình AI nên tiếp tục được coi là hành vi "sử dụng hợp lý" (fair use) theo luật bản quyền của Mỹ. Đồng thời, tập đoàn này cho rằng các tranh chấp bản quyền nên được xem xét dựa trên nội dung do AI tạo ra, thay vì tập trung vào dữ liệu đã được sử dụng để huấn luyện mô hình.
Quan điểm được Google đưa ra trong tài liệu dài 21 trang có tên A Pragmatic Approach to AI Governance in America (Tạm dịch: Cách tiếp cận thực dụng đối với quản trị AI tại Mỹ), do ông Kent Walker, Chủ tịch phụ trách các vấn đề toàn cầu của Google, công bố.

Google cho rằng huấn luyện AI bằng dữ liệu công khai là "sử dụng hợp lý", tranh chấp bản quyền nên đánh giá ở đầu ra thay vì dữ liệu đầu vào. Ảnh: Internet
Google: Huấn luyện AI từ dữ liệu công khai là hành vi mang tính chuyển đổi
Theo Google, việc sử dụng dữ liệu công khai trên Internet để đào tạo mô hình AI không nhằm mục đích sao chép hay tái xuất bản tác phẩm gốc, mà là một hình thức sử dụng mang tính chuyển đổi (transformative use).
Google so sánh quá trình này với việc một sinh viên mỹ thuật tham quan phòng triển lãm để học hỏi phong cách và kỹ thuật của các họa sĩ.
"Việc sử dụng dữ liệu công khai trên web để huấn luyện mô hình là một hình thức sử dụng mang tính chuyển đổi, không phải biểu đạt lại tác phẩm gốc, giống như một sinh viên nghệ thuật lấy cảm hứng khi tham quan triển lãm. Hoạt động này nên tiếp tục được bảo vệ theo nguyên tắc sử dụng hợp lý tại Mỹ và các ngoại lệ về khai thác dữ liệu văn bản và dữ liệu (text and data mining) ở các quốc gia khác", Google nêu trong tài liệu.
Tuy nhiên, Google cũng cho biết các nhà phát triển AI cần tôn trọng quyền lựa chọn của chủ sở hữu website thông qua các cơ chế kỹ thuật cho phép từ chối việc sử dụng nội dung để huấn luyện AI, chẳng hạn như thẻ điều khiển Google-Extended.
Ngoài ra, công ty cho biết đang nghiên cứu các mô hình hợp tác và chia sẻ giá trị mới với các chủ sở hữu bản quyền. Theo Google, doanh nghiệp đã chi trả để được cấp quyền truy cập nhiều nguồn dữ liệu không công khai, bao gồm các nội dung sáng tạo và tài liệu giáo dục.
Nên xử lý bản quyền ở "đầu ra", không phải "đầu vào"
Một điểm đáng chú ý trong tài liệu là Google cho rằng các quy định về AI nên tập trung vào những tác phẩm mà AI tạo ra, thay vì kiểm soát dữ liệu dùng để huấn luyện.
Theo Google, điều cần xem xét là liệu một hình ảnh, đoạn văn hay bản nhạc do AI tạo ra có sao chép trái phép một tác phẩm có bản quyền hay không, bất kể mô hình được đào tạo bằng nguồn dữ liệu nào.
Google cũng phản đối việc áp dụng các bộ lọc tự động nhằm xác định liệu nội dung có "quá giống" với tác phẩm gốc hay không, bởi đây là những đánh giá mang tính chủ quan. Thay vào đó, các nội dung vi phạm nên được xử lý thông qua cơ chế thông báo và gỡ bỏ (notice-and-takedown) vốn đang được áp dụng rộng rãi trên Internet.
Song song với đó, Google cho biết công ty ủng hộ các sáng kiến lập pháp như NO FAKES ACT nhằm bảo vệ giọng nói và hình ảnh cá nhân trước các bản sao kỹ thuật số trái phép do AI tạo ra.

Quan điểm đã được Google đưa ra từ năm 2023. Ảnh: internet
Quan điểm không mới giữa làn sóng kiện tụng
Thực tế, đây không phải lần đầu Google bảo vệ quan điểm này.
Từ năm 2023, trong bản đệ trình gửi United States Copyright Office, Google đã lập luận rằng việc huấn luyện AI là hành vi sử dụng mang tính chuyển đổi và vấn đề này nên được giải quyết thông qua hệ thống tòa án, thay vì ban hành luật mới.
Động thái mới diễn ra trong bối cảnh ngành công nghiệp âm nhạc đang liên tiếp khởi kiện các doanh nghiệp AI liên quan đến việc sử dụng dữ liệu có bản quyền để huấn luyện mô hình.
Giữa năm 2024, Recording Industry Association of America đại diện cho ba hãng thu âm lớn gồm Universal Music Group, Sony Music Entertainment và Warner Music Group đã khởi kiện hai nền tảng tạo nhạc bằng AI là Suno và Udio, cáo buộc các công ty này thực hiện hành vi "xâm phạm bản quyền trên quy mô lớn" khi sử dụng các bản ghi âm có bản quyền để đào tạo AI.
Sau đó, Udio đã chuyển hướng từ việc bảo vệ lập luận "fair use" sang ký các thỏa thuận cấp phép với Universal Music Group, Warner Music Group, Merlin và Kobalt Music. Tuy nhiên, vụ kiện do Sony Music khởi xướng vẫn đang được tiếp tục.
Ở một diễn biến khác, các nhà xuất bản âm nhạc cũng đã khởi kiện Anthropic từ năm 2023 với cáo buộc chatbot Claude được huấn luyện trên lời bài hát có bản quyền. Sau đó, nguyên đơn tiếp tục mở rộng vụ kiện, bổ sung hơn 20.000 ca khúc và yêu cầu mức bồi thường theo luật định vượt 3 tỷ USD.
Cuối tháng 3 năm nay, RIAA cùng National Music Publishers' Association và nhiều tổ chức trong ngành đã đề nghị tòa án liên bang bác bỏ lập luận "fair use" của Anthropic, cho rằng việc sao chép tác phẩm có bản quyền là hành vi không thể chấp nhận.
Google cũng đang đối mặt với vụ kiện bản quyền AI
Bên cạnh việc bảo vệ quan điểm của mình, Google hiện cũng là bị đơn trong một vụ kiện liên quan đến AI và bản quyền âm nhạc.
Tháng 3 vừa qua, một nhóm nghệ sĩ độc lập đã khởi kiện Google với cáo buộc công ty sử dụng các bản ghi âm có bản quyền trên YouTube để huấn luyện mô hình tạo nhạc Lyria 3 mà chưa được cấp phép.
Đáp lại, Google đề nghị tòa án bác đơn kiện, cho rằng các nghệ sĩ đã cấp quyền sử dụng nội dung theo điều khoản dịch vụ của YouTube khi tải các tác phẩm của mình lên nền tảng.
Google đề xuất thành lập tổ chức giám sát AI tiên tiến
Ngoài vấn đề bản quyền, Google cũng đề xuất thành lập một tổ chức quản lý độc lập dành riêng cho các mô hình AI tiên tiến mang tên Frontier AI Regulatory Organization (FARO).
Theo đề xuất, FARO sẽ được ngành công nghiệp AI tài trợ nhưng chịu sự giám sát của cơ quan liên bang, có nhiệm vụ xây dựng các tiêu chuẩn an toàn và xác minh việc kiểm toán các mô hình AI tiên tiến.
Google cho rằng mô hình này có thể được xây dựng tương tự các tổ chức tự quản trong lĩnh vực tài chính hoặc hạ tầng năng lượng tại Mỹ.
Tập đoàn cũng nhấn mạnh cách tiếp cận "ở giữa" giữa hai thái cực quản lý quá chặt hoặc buông lỏng hoàn toàn. Đối với các ứng dụng AI phổ biến, Google cho rằng nguyên tắc cơ bản vẫn là: nếu một hành vi là bất hợp pháp khi con người thực hiện thì cũng sẽ bất hợp pháp khi được thực hiện bằng AI. Vì vậy, nhiều quy định pháp luật hiện hành hoàn toàn có thể được điều chỉnh để áp dụng cho AI mà không cần xây dựng một hệ thống pháp luật hoàn toàn mới.
