Meta vừa xác nhận sẽ bắt đầu sử dụng nội dung công khai do người dùng trưởng thành tại Liên minh châu Âu (EU) chia sẻ để huấn luyện các mô hình trí tuệ nhân tạo (AI) của hãng.
Động thái này diễn ra ngay sau khi Meta chính thức triển khai các tính năng Meta AI tại châu Âu, với mục tiêu tăng cường độ chính xác và mức độ phù hợp văn hóa của AI đối với người dùng tại khu vực này.
Meta Sẽ Dùng Những Loại Dữ Liệu Nào?
Trong thông báo chính thức, Meta cho biết sẽ sử dụng:
- Bài viết công khai, bình luận, tương tác của người dùng trưởng thành trên Facebook, Instagram và các nền tảng khác
- Câu hỏi và truy vấn gửi đến Meta AI để cải thiện chất lượng phản hồi
Tuy nhiên, công ty khẳng định không sử dụng:
- Tin nhắn riêng tư giữa bạn bè, gia đình
- Dữ liệu công khai từ tài khoản của người dưới 18 tuổi
Người Dùng Có Thể Từ Chối Không?
Bắt đầu từ tuần này, người dùng tại EU sẽ nhận được thông báo trong ứng dụng và qua email giải thích cách dữ liệu của họ được sử dụng, kèm theo liên kết đến mBẫu biểu phản đối (objection form).
Meta cam kết: “Chúng tôi sẽ tôn trọng mọi biểu mẫu từ chối đã nhận và các biểu mẫu mới được gửi.”
Mục Tiêu: Xây Dựng AI “Dành Riêng” Cho Người Dùng EU
Meta tuyên bố rằng chiến lược này nhằm xây dựng AI phù hợp với văn hóa, ngôn ngữ và phong cách giao tiếp của người dân châu Âu: “Chúng tôi tin rằng trách nhiệm của mình không chỉ là đưa AI đến với người châu Âu, mà là xây dựng AI vì người châu Âu.”
Meta cho biết AI cần hiểu được:
- Tiếng lóng, phương ngữ địa phương
- Phong cách hài hước và châm biếm đặc trưng từng quốc gia
- Thói quen sử dụng mạnBg xã hội độc đáo theo vùng miền
Meta: “Chúng Tôi Minh Bạch Hơn Các Đối Thủ”
Meta khẳng định việc sử dụng dữ liệu công khai để huấn luyện AI không phải là mới, và Google, OpenAI đều đã làm điều tương tự.
“Chúng tôi tự hào vì cách tiếp cận của mình minh bạch hơn nhiều đối thủ trong ngành.”
Meta cũng cho biết đã trì hoãn triển khai tại EU năm ngoái để chờ phản hồi pháp lý, và nhận được ý kiến ủng hộ từ Ủy ban Bảo vệ Dữ liệu châu Âu (EDPB) vào tháng 12/2024.
Những Lo Ngại Đang Gia Tăng
Dù Meta nhấn mạnh sự minh bạch, nhiều chuyên gia và tổ chức bảo vệ quyền riêng tư vẫn lo ngại về những vấn đề sau:
1. “Dữ liệu công khai” có thật sự được đồng ý để dùng huấn luyện AI?
Người dùng có thể chia sẻ bài viết công khai trong một cộng đồng, nhưng không có nghĩa là họ chấp nhận nội dung đó bị AI phân tích và tái sử dụng quy mô lớn.
2. “Từ chối” không bằng “cho phép”
Thay vì để người dùng tự chọn tham gia (opt-in), Meta lại dùng cách mặc định đồng ý và cho phép từ chối (opt-out) điều này đặt trách nhiệm lên người dùng, trong khi nhiều người có thể bỏ qua thông báo hoặc không hiểu đầy đủ về việc sử dụng dữ liệu.
3. AI có thể học và khuếch đại thành kiến xã hội
Mạng xã hội phản ánh rất nhiều thiên kiến về chủng tộc, giới tính, định kiến xã hội… Việc AI học từ dữ liệu đó có thể khiến mô hình vô tình lặp lại hoặc khuếch đại thành kiến mà không dễ dàng kiểm soát.
4. Vấn đề bản quyền và sở hữu nội dung
Nhiều nội dung công khai trên mạng là sản phẩm sáng tạo gốc: bài viết, ảnh, video… Dùng chúng để huấn luyện AI có thể vi phạm bản quyền nếu chưa được cho phép hoặc không có cơ chế đền bù hợp lý.
5. Thiếu minh bạch thực sự trong cách dữ liệu ảnh hưởng đến AI
Dù Meta công bố đang dùng dữ liệu công khai, việc người dùng không thể biết cụ thể dữ liệu nào ảnh hưởng đến đầu ra của AI là một điểm mù nguy hiểm. Minh bạch thực sự cần phải sâu hơn nữa.
Tổng Kết
Động thái sử dụng dữ liệu người dùng EU để huấn luyện AI cho thấy giá trị to lớn của nội dung do người dùng tạo ra trong nền kinh tế AI.
Nhưng điều này cũng đặt ra yêu cầu khẩn cấp cho:
- Bảo vệ quyền riêng tư cá nhân
- Tăng cường minh bạch và quyền kiểm soát của người dùng
- Chế tài rõ ràng về bản quyền và đạo đức AI
Khi AI ngày càng thông minh, người dùng cần được trao quyền để hiểu và kiểm soát cách dữ liệu của mình được sử dụng, chứ không chỉ là “nạn nhân thụ động” trong kỷ nguyên số.
Tìm hiểu thêm tại: https://chatgpt.com/