'Mạng mở' dần khép lại: Cuộc chiến bản quyền giữa báo chí và AI

09:24, 05/05/2026

Sự bùng nổ của trí tuệ nhân tạo (AI) tạo sinh đang kéo theo một cuộc tái định hình sâu sắc về cấu trúc của Internet. Mạng lưới toàn cầu đang dần trở nên phân mảnh và khép kín khi các cơ quan báo chí lớn đồng loạt thực hiện các biện pháp phòng thủ nhằm bảo vệ tài sản trí tuệ.

Trong gần ba thập kỷ, Internet Archive cùng công cụ Wayback Machine đã đóng vai trò là một thủ thư cần mẫn của nhân loại, lưu trữ hơn 1.000 tỷ trang web cùng hàng triệu đầu sách, bản nhạc và video. Đối với các nhà sử học hay phóng viên điều tra, đây là nguồn tài liệu vô giá để đối chiếu sự thật và theo dõi sự thay đổi của dòng chảy thông tin. Tuy nhiên, trong kỷ nguyên AI, kho dữ liệu khổng lồ, có cấu trúc tốt và trải dài nhiều thập kỷ này lại trở thành "mỏ vàng" cho các công ty công nghệ.

Các mô hình ngôn ngữ lớn (LLM) như ChatGPT của OpenAI hay bộ máy tìm kiếm trả lời của Perplexity cần một lượng dữ liệu khổng lồ để học cách tư duy và giao tiếp như con người. Thay vì trả phí bản quyền trực tiếp cho các tòa soạn, các trình thu thập dữ liệu tự động đã tận dụng kẽ hở từ các kho lưu trữ công cộng để "quét" nội dung. Điều này biến Internet Archive từ một dự án hạ tầng thông tin phi lợi nhuận trở thành một "lỗ hổng" bảo mật trong mắt các nhà xuất bản.

Hệ quả là một làn sóng chặn truy cập chưa từng có đã diễn ra. Những tên tuổi lớn như New York Times, CNN, The Guardian và hơn 240 tổ chức tin tức khác đã thiết lập rào cản kỹ thuật để ngăn Wayback Machine sao lưu nội dung của họ. Hành động này không chỉ nhằm mục đích bảo vệ nội dung hiện tại mà còn để cắt đứt nguồn tiếp tế dữ liệu miễn phí cho các đối thủ cạnh tranh AI.

'Mạng mở' dần khép lại: Cuộc chiến bản quyền giữa báo chí và AI 

Căng thẳng giữa báo chí và AI không chỉ dừng lại ở các biện pháp kỹ thuật mà đã leo thang thành những trận chiến pháp lý rình rang. News Corp, tập đoàn sở hữu tờ Wall Street Journal, đã không ngần ngại chỉ trích Perplexity AI là hành vi "lạm dụng quyền sở hữu trí tuệ một cách trắng trợn". Robert Thomson, CEO của News Corp, khẳng định rằng việc các công ty AI sử dụng nội dung báo chí mà không xin phép đang gây thiệt hại nghiêm trọng cho đội ngũ nhà báo và nhà văn.

Tại Mỹ, vụ kiện của New York Times chống lại OpenAI và Microsoft được xem là một dấu mốc lịch sử. Nó đặt ra câu hỏi cốt lõi: Liệu việc đào tạo AI trên dữ liệu có bản quyền có được coi là "sử dụng hợp lý" (fair use) hay không? Trong khi các công ty công nghệ lập luận rằng họ đang tạo ra giá trị mới, các nhà xuất bản lại cho rằng AI đang trực tiếp "ăn mòn" doanh thu bằng cách cung cấp câu trả lời tổng hợp khiến người dùng không còn cần truy cập vào trang web gốc.

Sự phản kháng này đã buộc các gã khổng lồ công nghệ phải thay đổi chiến lược. Thay vì "thu hoạch lậu", họ bắt đầu bước vào bàn đàm phán. Những thỏa thuận trị giá hàng trăm triệu USD đã được ký kết, đơn cử như hợp đồng 250 triệu USD giữa OpenAI và News Corp, hay việc Microsoft chi 10 triệu USD để tiếp cận kho tạp chí khoa học của Taylor & Francis. Điều này cho thấy dữ liệu chất lượng cao đang trở thành một loại hàng hóa xa xỉ, chỉ dành cho những bên có đủ tiềm lực tài chính.

Việc các nhà xuất bản đóng cửa với các trình lưu trữ số và công cụ tìm kiếm AI đang tạo ra một nghịch lý. Một mặt, nó bảo vệ quyền lợi chính đáng và sự sinh tồn của ngành báo chí trước làn sóng công nghệ. Mặt khác, nó vô tình làm suy yếu tính minh bạch và khả năng tiếp cận thông tin của công chúng. Khi các trang web chặn Wayback Machine, lịch sử số của chúng ta sẽ xuất hiện những "khoảng trắng" không thể phục hồi.

Hơn nữa, xu hướng thương mại hóa dữ liệu có thể dẫn đến việc các mô hình AI mạnh nhất sẽ chỉ được huấn luyện dựa trên nội dung từ những bên đã ký kết thỏa thuận. Điều này có thể gây ra sự thiên kiến trong thông tin và tạo ra một "bức tường thu phí" mới, nơi kiến thức chất lượng cao được giữ kín sau các lớp mã hóa và hợp đồng kinh tế.

Internet đang bước vào một chương mới, nơi sự hào phóng và tinh thần chia sẻ sơ khai được thay thế bằng các quy tắc nghiêm ngặt về bản quyền. Trong cuộc chơi này, dữ liệu không còn là tài nguyên miễn phí mà là "dầu mỏ" mới của nền kinh tế số. Cuộc chiến giữa các nhà sản xuất tin tức và các tập đoàn AI không chỉ đơn thuần là vấn đề tiền bạc, mà còn là cuộc đấu tranh để định nghĩa lại ai là người làm chủ thông tin trong tương lai.