Bản tóm tắt tin tức bằng AI có thể xâm phạm bản quyền

13:46, 17/11/2025

Tòa án Quận phía Nam New York tuần trước đã đưa ra phán quyết quan trọng trong đó tuyên bố các bản tóm tắt tin tức do AI tạo ra có thể là xâm phạm bản quyền. Điều này có thể tạo lợi thế lớn cho các tòa soạn đang theo đuổi các vụ kiện bản quyền với các công ty AI.

Quyết định mang tính bước ngoặt

Các nhà xuất bản tin tức vừa vượt qua một rào cản quan trọng trong cuộc chiến bản quyền với Cohere liên quan đến các “bản tóm tắt thay thế” do AI tạo ra từ bài viết của họ. Theo đó, vào tuần trước Tòa án Quận phía Nam New York đã có một phán quyết quan trọng liên quan tới các bản tái tạo bài báo do AI tạo ra. 

Theo trang copyrightlately.com, Thẩm phán Colleen McMahon nhận định rằng các “bản tóm tắt thay thế”, những đầu ra phản ánh không chỉ dữ kiện mà còn bao gồm cấu trúc biểu đạt và cách kể chuyện của các tác phẩm gốc, có thể được xem là hành vi xâm phạm bản quyền. Theo đó, các chủ sở hữu có thể tiếp tục theo kiện.

Vụ kiện, do Advance Local Media LLC kiện Công ty Cohere, được nộp lên tòa án vào tháng 2/2025 bởi 14 nhà xuất bản lớn, bao gồm Forbes, Condé Nast, Los Angeles Times và The Atlantic.

Theo nội dung đơn kiện, các chủ sở hữu cáo buộc rằng Cohere, công ty AI Canada phát triển mô hình ngôn ngữ lớn “Command”, tái tạo một phần lớn tác phẩm của họ, đôi khi gần như nguyên văn, và vượt qua mức cấp phép của nhà xuất bản. Họ cũng cho rằng Command tạo ra nội dung tái tạo gây hiểu lầm về các thương hiệu tin tức.

Tổng cộng đơn kiện nêu hơn 4.000 tác phẩm bị xâm phạm cùng 75 ví dụ đầu ra mà theo các nhà xuất bản, bám sát cấu trúc, trình tự, giọng văn và lựa chọn biểu đạt của bài viết gốc.

Tuần trước, Thẩm phán McMahon đã bác bỏ yêu cầu bác đơn của Cohere, cho rằng các nhà xuất bản đã nêu đầy đủ các cáo buộc về vi phạm trực tiếp, vi phạm thứ cấp và vi phạm Đạo luật Lanham. Cohere hiện chưa thể đưa ra các phản bác cáo buộc sao chép dữ liệu sử dụng trong huấn luyện, cơ chế RAG (Retrieval-Augmented Generation), hoặc các đầu ra tái tạo nguyên văn hoặc gần nguyên văn tác phẩm của nguyên đơn. Thay vào đó, Cohere tập trung vào học thuyết “tóm tắt thay thế”, lập luận rằng bất kỳ sự giống nhau nào cũng chỉ mang tính tối thiểu và rằng các đầu ra chỉ là các bản tóm tắt dữ kiện.

Vị thẩm phán khẳng định: "Không thể xác định hành vi xâm phạm chỉ bằng việc đếm số từ; việc phân tích định lượng giữa hai tác phẩm phải luôn được đặt trong bối cảnh định tính".

Cohere-Lawsuit-Graphic-800x500

Khi nào một bản tóm tắt bị coi là vượt quá giới hạn? 

Phán quyết Cohere được đưa ra trong bối cảnh các tòa án tại Hoa Kỳ đang cố gắng xác định ranh giới cho các đầu ra “dạng tóm tắt” của AI. Tóm tắt truyền thống chắt lọc các dữ kiện chính từ văn bản dài, và luật bản quyền không bảo vệ các dữ kiện. Tuy nhiên, luật hiện hành của Hoa Kỳ vẫn có những quy định cho phép bảo vệ cách biểu đạt sáng tạo của tác giả, bao gồm các yếu tố: cấu trúc, nhấn mạnh, nhịp kể và cách sắp xếp dữ kiện tạo nên phong cách kể chuyện.

Đối với các bản tóm tắt do AI tái tạo, tòa án cho rằng chúng có thể bị coi là vi phạm bản quyền nếu có tình trạng sao chép các yếu tố biểu đạt này. Trong vụ Nihon Keizai Shimbun kiện Comline Business Data (1999), Tòa án Phúc thẩm Khu vực 2 phán quyết rằng dù bị đơn có “mọi quyền tái xuất bản các dữ liệu”, các bản tóm tắt vẫn có thể vi phạm nếu chúng bám theo bài gốc “câu theo câu, theo đúng trình tự”, sử dụng cấu trúc và cách hành văn giống hệt.

Dù ranh giới khó xác định: có bản không vi phạm vì sắp xếp lại dữ liệu và dùng câu cú khác; một số trường hợp khác có thể vẫn 'thoát án' mặc dù sao chép 20% bài viết gốc. Nhưng tòa vẫn cảnh báo: “Không thể xác định xâm phạm chỉ bằng cách đếm từ.” Đây chính là nguyên tắc mà Thẩm phán McMahon áp dụng lại sau 25 năm.

Các vụ kiện AI gần đây cho thấy tòa đang áp dụng các nguyên tắc tương tự cho nội dung do máy tạo ra. Tháng 4/2025, trong vụ New York Times kiện Microsoft, Thẩm phán Sidney Stein bác bỏ các cáo buộc của Center for Investigative Reporting (CIR), cho rằng các “bản rút gọn dạng bullet” của Copilot không đủ tương đồng về chất lượng hoặc số lượng với bài gốc để cấu thành vi phạm.

Nhưng chỉ hai tuần trước, chính thẩm phán này đã cho phép các tác giả tiểu thuyết tiếp tục khiếu nại dựa trên kết quả đầu ra đối với OpenAI, nhận thấy rằng bản tóm tắt của ChatGPT về A Game of Thrones có khả năng vi phạm quyền biểu đạt được bảo vệ vì nó "truyền tải giọng điệu và cảm nhận chung của tác phẩm gốc bằng cách lặp lại cốt truyện, nhân vật và chủ đề của tác phẩm gốc".

Trong một bài đăng trên blog, học giả về bản quyền Matthew Sag gọi phán quyết này là "một cuộc tấn công cơ bản vào sự khác biệt trong việc thể hiện ý tưởng". Vị chuyên gia này cũng cảnh báo rằng nếu một bản tóm tắt ChatGPT dài 580 từ vi phạm một cuốn tiểu thuyết dài 694 trang, thì "hàng nghìn mục từ trên Wikipedia" có thể sẽ nằm trong tầm ngắm bản quyền.

Trở lại với mảng tin tức, các bài báo đặt ra một thách thức đặc biệt khi chúng có dung lượng ngắn hơn nhiều so với tiểu thuyết, khiến việc sao chép hàng loạt trở nên dễ dàng hơn, nhưng lại chứa đựng nhiều nội dung thực tế không được bảo vệ hơn. Câu hỏi không phải là liệu cốt truyện và nhân vật có bị sao chép hay không, mà là liệu cách trình bày sự thật cụ thể của nhà báo, những lựa chọn về cấu trúc, trọng tâm và mạch truyện giúp phân biệt báo cáo với hồ sơ cảnh sát, có bị chiếm dụng hay không. Khi các bản tóm tắt áp dụng những lựa chọn mang tính biểu đạt đó, chúng có thể vi phạm bản quyền. Tuy nhiên, việc xác định chính xác thời điểm điều đó xảy ra không phải lúc nào cũng dễ dàng.

Vì sao phán quyết mới dành cho Cohere lại quan trọng

Phán quyết mới nhất từ tòa án đối với Cohere là một trong những quyết định quan trọng đầu tiên thúc đẩy các khiếu nại sao chép đầu ra dựa trên văn bản liên quan đến tóm tắt tin tức không nguyên văn. Trong nhiều tháng, các công ty AI đã chỉ ra việc Thẩm phán Stein bác bỏ các khiếu nại CIR là bằng chứng cho thấy các lý thuyết tóm tắt đã bị bác bỏ. Thẩm phán McMahon vừa cho thấy cánh cửa vẫn còn rất rộng mở.

Nói rộng hơn, Cohere tiếp tục xu hướng chuyển từ cuộc chiến trừu tượng về dữ liệu đào tạo AI sang vấn đề cụ thể hơn về đầu ra. Bất kể điều gì xảy ra với các biện pháp bảo vệ sử dụng hợp lý xung quanh hoạt động đào tạo, các công ty AI sẽ phải đối mặt với sự phơi bày thực sự khi đầu ra của họ phản ánh quá sát các biểu thức được bảo vệ. Đối với các nhà phát triển tiếp thị ứng dụng định hướng tin tức hoặc trợ lý nghiên cứu, thông điệp rất rõ ràng: "tóm tắt" không phải là một nơi trú ẩn an toàn mà là một bãi mìn cụ thể đòi hỏi phải điều hướng cẩn thận.

Được biết, năm ngoái, Thẩm phán McMahon bác bỏ vụ kiện Raw Story Media kiện OpenAI, nơi các hãng tin tức kỹ thuật số đã kiện theo Đạo luật Bản quyền Thiên niên kỷ (DMCA) vì xóa thông tin quản lý bản quyền. Nếu không có bản quyền đã đăng ký, họ không thể đưa ra khiếu nại vi phạm, mà chỉ có thể khiếu nại theo Đạo luật Bản quyền Thiên niên kỷ (DMCA) về việc xóa CMI. Và nếu không có bằng chứng cho thấy ChatGPT thực sự đã phổ biến các bài viết của họ, họ không thể chứng minh được thiệt hại cụ thể để được hưởng quy chế theo Điều III. Vụ kiện đã bị bác bỏ.

Các nhà xuất bản Cohere đã rút kinh nghiệm từ thất bại đó. Họ ra tòa với bản quyền đã đăng ký, cho phép họ đưa ra khiếu nại vi phạm đầy đủ. Họ cũng đưa ra các ví dụ cụ thể về các sản phẩm bị cáo buộc vi phạm, và điều đó là đủ để các khiếu nại của họ được tiếp tục.

Từ các phán quyết mới đây, có thể thấy các nhà xuất bản vẫn chưa giành được bất kỳ chiến thắng rõ ràng nào trước các công ty công nghệ AI, tuy nhiên, làn sóng kiện tụng vẫn tiếp tục lan rộng và tạo ra sức ảnh hưởng rộng lớn hơn.

Trước xu hướng các công ty AI muốn định vị các mô hình ngôn ngữ lớn trở thành sự thay thế cho việc tiêu thụ tin tức truyền thống và các công cụ tìm kiếm, việc xác định liệu các bản tóm tắt AI hiển thị ở đầu các kết quả tìm kiếm có phải là hành vi xâm phạm bản quyền hay không sẽ ngày càng trở nên cấp bách hơn.