Reddit vừa đệ đơn kiện startup AI Anthropic, cáo buộc công ty đã thu thập trái phép dữ liệu người dùng Reddit để huấn luyện các mô hình Claude AI mà không có bất kỳ thỏa thuận nào về quyền sử dụng hay chi trả bản quyền. Vụ kiện không chỉ liên quan đến sở hữu nội dung, mà còn đặt ra tiền lệ quan trọng cho ngành AI toàn cầu.
Nội dung cáo buộc: “Scraping” dữ liệu trái phép, vi phạm thỏa thuận người dùng
Reddit cho biết Anthropic đã sử dụng bot để “scrape” (thu thập) dữ liệu quy mô lớn từ nền tảng bao gồm các bài đăng, bình luận, và nội dung được người dùng tạo ra trong suốt nhiều năm, trái với điều khoản sử dụng của Reddit.
“Mọi người truy cập Reddit bao gồm cả bot đều đồng ý với điều khoản sử dụng: không được phép lấy dữ liệu để phát triển sản phẩm thương mại nếu không có thỏa thuận bằng văn bản,” trích đơn kiện của Reddit nộp lên tòa án liên bang Hoa Kỳ.
Reddit khẳng định Anthropic không chỉ vi phạm các điều khoản này, mà còn tiếp tục truy cập trái phép ngay cả sau khi tuyên bố công khai đã dừng việc thu thập.
Anthropic “Hiệp sĩ trắng” của ngành AI bị tố đạo đức giả?
Anthropic từ lâu đã xây dựng hình ảnh là công ty AI đạo đức, nhấn mạnh tính minh bạch và cam kết an toàn cho người dùng. Tuy nhiên, Reddit cho rằng điều này chỉ là “chiêu bài tiếp thị rỗng tuếch”.
Đơn kiện nêu rõ: Dù Anthropic từng công bố vào tháng 7/2024 rằng họ đã dừng thu thập dữ liệu Reddit, nhưng log truy cập nội bộ của Reddit ghi nhận hơn 100.000 lượt truy cập trái phép từ bot của Anthropic trong những tháng sau đó.
Quyền riêng tư người dùng bị đe dọa
Reddit đặc biệt nhấn mạnh rủi ro liên quan đến nội dung đã bị xóa.
- Với các đối tác như Google và OpenAI, Reddit có các điều khoản kỹ thuật yêu cầu xóa dữ liệu nếu người dùng xóa bài viết khỏi Reddit.
- Nhưng Anthropic không có bất kỳ thỏa thuận nào, đồng nghĩa với việc Claude AI có thể tiếp tục sử dụng dữ liệu mà người dùng đã yêu cầu xóa bỏ.
Đơn kiện bao gồm ảnh chụp màn hình cho thấy Claude AI thừa nhận không có cách nào xác định liệu dữ liệu Reddit đã bị xóa hay chưa.
Reddit yêu cầu điều gì?
Reddit đang yêu cầu tòa án ra lệnh cấm khẩn cấp với Anthropic:
- Ngừng sử dụng ngay lập tức mọi dữ liệu Reddit đã được thu thập.
- Cấm phân phối, bán hoặc cấp phép bất kỳ sản phẩm nào có chứa dữ liệu đó – bao gồm cả mô hình Claude AI hiện tại.
Đồng thời, Reddit yêu cầu bồi thường cho:
- Chi phí máy chủ tăng do truy cập trái phép.
- Doanh thu bị mất từ các hợp đồng cấp phép đáng lẽ có thể ký với Anthropic.
Tranh chấp dữ liệu AI: Câu hỏi pháp lý và tiền lệ ngành
Vụ kiện của Reddit một lần nữa làm nóng lại câu hỏi then chốt trong kỷ nguyên AI:
Liệu dữ liệu “công khai” trên internet có đồng nghĩa với việc được tự do sử dụng cho mục đích thương mại AI?
Reddit nói “không” và khẳng định việc sử dụng dữ liệu phải đi kèm quyền sở hữu và kiểm soát rõ ràng.
Nếu tòa án ra phán quyết ủng hộ Reddit, toàn bộ ngành AI có thể phải đánh giá lại nguồn dữ liệu huấn luyện, cũng như mô hình kinh doanh dựa vào dữ liệu web công cộng.
Tác động tới Anthropic và Claude AI
Nếu Reddit thắng kiện và được yêu cầu gỡ bỏ mọi sản phẩm chứa dữ liệu Reddit, điều đó có thể khiến Claude AI bị cấm phân phối, tạm ngưng hoặc phải đào tạo lại mô hình từ đầu.
Hiện Anthropic vẫn chưa có phản hồi chính thức về vụ kiện.
Kết luận
Vụ kiện Reddit kiện Anthropic là một trong những dấu mốc pháp lý quan trọng nhất từ trước đến nay về việc sử dụng dữ liệu công khai để đào tạo AI. Kết quả có thể định hình lại cách các công ty AI tiếp cận dữ liệu web không chỉ về mặt kỹ thuật, mà còn về đạo đức, pháp lý và niềm tin từ người dùng.
Tìm hiểu thêm: https://chatgpt.com/