Thứ Ba, Tháng 6 17, 2025

OpenAI Bị Cáo Buộc Sử Dụng Dữ Liệu Có Bản Quyền Để Huấn Luyện AI

Một nghiên cứu mới từ AI Disclosures Project đã làm dấy lên lo ngại về việc OpenAI có thể đã sử dụng dữ liệu có bản quyền để huấn luyện các mô hình ngôn ngữ lớn (LLM), đặc biệt là mô hình GPT-4o.

GPT-4o Nhận Diện Rõ Nội Dung Sách Trả Phí Của O’Reilly Media

Nghiên cứu do Tim O’Reilly (nhà công nghệ, nhà xuất bản) và Ilan Strauss (nhà kinh tế học) dẫn đầu, sử dụng một tập dữ liệu hợp pháp gồm 34 cuốn sách có bản quyền từ O’Reilly Media để kiểm tra xem liệu các mô hình AI của OpenAI có “học” từ nội dung này hay không.

Kết quả:

  • GPT-4o đạt AUROC B82%, cho thấy khả năng nhận diện mạnh mẽ đối với nội dung sách không công khai của O’Reilly.
  • GPT-3.5 Turbo chỉ đạt mức AUROC ~50%, cho thấy ít khả năng nhận diện nội dung có bản quyền hơn.
  • GPT-4o Mini phiên bản nhỏ hơn hầu như không có nhận thức gì về cả nội dung công khai lẫn không công khai (AUROC ~50%).

Lưu ý: AUROC là chỉ số đánh giá khả năng phân biệt giữa hai loại dữ liệu trong trường hợp này là văn bản do con người viết và văn bản do AI sinh ra.

LibGen Có Thể Là Nguồn Dẫn Dữ Liệu Trái Phép

Các nhà nghiên cứu nghi ngờ rằng dữ liệu bị vi phạm bản quyền có thể đến từ LibGen, một kho lưu trữ sách điện tử không chính thức, vì tất cả sách O’Reilly được sử dụng trong nghiên cứu đều có mặt trên nền tảng này.

Mặc dù nghiên cứu chỉ tập trung vào OpenAI và sách của O’Reilly, nhưng nhóm tác giả tin rằng đây không phải là vấn đề đơn lẻ, mà là dấu hiệu cho thấy một vấn đề mang tính hệ thống trong ngành AI.

Hệ Lụy: Suy Giảm Chất Lượng Nội Dung Trên Internet?

Báo cáo cảnh báo: Việc sử dụng dữ liệu có bản quyền mà không xin phép hay trả phí sẽ:

  • Làm giảm động lực sáng tạo chuyên nghiệp
  • Làm suy yếu chất lượng và sự đa dạng của nội dung trên internet
  • Gây tổn hại lâu dài tới ngành xuất bản và báo chí

Kêu Gọi Minh Bạch Dữ Liệu Trong Huấn Luyện AI

Dự án AI Disclosures kêu gọi:

  • Tăng cường trách nhiệm giải trình đối với quy trình huấn luyện AI
  • Ban hành điều khoản pháp lý buộc công ty AI phải tiết lộ nguồn gốc dữ liệu
  • Xây dựng thị trường bản quyền dữ liệu huấn luyện, giống như thị trường bản quyền âm nhạc hay phim ảnh

“Chúng ta cần biết khi nào nội dung của mình bị dùng để huấn luyện AI. Điều này là nền tảng cho việc xây dựng một thị trường minh bạch cho dữ liệu huấn luyện,” báo cáo nhấn mạnh.

EU AI Act Có Thể Là Cú Hích Cần Thiết

Luật AI của Liên minh Châu Âu (EU AI Act) với các điều khoản yêu cầu công bố nguồn dữ liệu được xem là động lực chính giúp tạo ra chuẩn mực minh bạch mới trong ngành AI, nếu được thực thi hiệu quả.

Thị Trường Dữ Liệu Đang Hình Thành

Dù vấn đề vi phạm bản quyền vẫn đang tồn tại, thị trường mua bán dữ liệu huấn luyện AI đã bắt đầu phát triển, với các công ty như:

  • Defined.ai trung gian giúp các công ty AI mua dữ liệu huấn luyện có bản quyền và có sự đồng thuận từ người cung cấp.

Kết Luận: OpenAI Có Thể Đã Huấn Luyện GPT-4o Trên Dữ Liệu Không Công Khai

Bằng cách sử dụng 34 đầu sách độc quyền từ O’Reilly Media, nghiên cứu cung cấp bằng chứng thực nghiệm rằng GPT-4o có khả năng cao đã được huấn luyện trên dữ liệu có bản quyền mà chưa xin phép.

Vấn đề không chỉ là vi phạm pháp lý, mà còn liên quan đến đạo đức, quyền tác giả và sự bền vững của hệ sinh thái nội dung toàn cầu trong thời đại AI.

Tìm hiểu thêm tại: https://chatgpt.com/

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Ericsson và AWS bắt tay tạo ra mạng di động “tự chữa lành” nhờ AI

Liên minh giữa hai ông lớn viễn thông và...

Meta đầu tư 14,8 tỷ USD vào Scale AI: Cảnh báo “lách luật” và độc quyền AI?

Thương vụ trị giá 14,8 tỷ USD không chỉ...

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »