Khi ngành công nghiệp AI tập trung vào tính minh bạch và bảo mật, các cuộc tranh luận về ý nghĩa thực sự của “mở” (openness) ngày càng gay gắt. Các chuyên gia từ Endor Labs, một công ty bảo mật mã nguồn mở, đã chia sẻ quan điểm về vấn đề này.
AI Cần Minh Bạch Như Bảo Mật Phần Mềm
Andrew Stiefel, Giám đốc Tiếp thị Sản phẩm cấp cao tại Endor Labs, nhấn mạnh rằng ngành AI có thể học hỏi nhiều từ những bài học bảo mật phần mềm.
“Sắc lệnh Hành pháp năm 2021 của chính phủ Mỹ về Cải thiện An ninh Mạng yêu cầu tổ chức phải cung cấp bảng kê vật liệu phần mềm (SBOM) cho mỗi sản phẩm bán cho các cơ quan liên bang.”
SBOM giúp liệt kê các thành phần mã nguồn mở trong sản phẩm, giúp phát hiện lỗ hổng bảo mật. Stiefel khẳng định rằng áp dụng nguyên tắc tương tự cho AI là bước tiếp theo hợp lý.
“Cung cấp sự minh bạch cho công dân và nhân viên chính phủ không chỉ nâng cao bảo mật mà còn giúp hiểu rõ dữ liệu, phương pháp huấn luyện, trọng số mô hình AI và các thành phần khác.”
Thế Nào Là Một Mô Hình AI “Mở”?
Julien Sobrier, Quản lý Sản phẩm Cấp cao tại Endor Labs, cho biết không có định nghĩa thống nhất về AI “mở”. Ông giải thích:
“Một mô hình AI bao gồm nhiều thành phần: tập dữ liệu huấn luyện, trọng số mô hình, chương trình huấn luyện và thử nghiệm. Để gọi một mô hình là ‘mở’, cần công khai toàn bộ chuỗi này.”
Sự thiếu nhất quán giữa các công ty lớn đã tạo ra sự nhầm lẫn về thuật ngữ này. Sobrier cảnh báo về hiện tượng “open-washing”, nơi các công ty tuyên bố mở nhưng thực chất vẫn kiểm soát quyền truy cập.
“Chúng ta đã thấy ‘open-washing’ trong phần mềm nguồn mở khi các nhà cung cấp đám mây thương mại hóa dự án mà không đóng góp lại. Giờ đây, AI cũng đối mặt với nguy cơ tương tự.”
Meta và các nhà cung cấp LLM “mở” khác có thể đi theo hướng này: mở rộng quyền truy cập nhưng vẫn ngăn chặn đối thủ cạnh tranh sử dụng công nghệ của họ.
DeepSeek Và Minh Bạch Trong AI
DeepSeek đang nỗ lực tăng tính minh bạch trong AI, với việc công khai một phần mã nguồn và trọng số mô hình.
Andrew Stiefel cho biết:
“DeepSeek đã công khai mô hình và trọng số. Bước tiếp theo là minh bạch về cách triển khai hệ thống và tối ưu hóa mô hình trong môi trường thực tế.”
Điều này mang lại hai lợi ích quan trọng:
- Cộng đồng có thể kiểm tra bảo mật mô hình.
- Doanh nghiệp có thể chạy phiên bản AI của riêng họ trong môi trường nội bộ.
Ngoài bảo mật, DeepSeek cũng đặt nền tảng cho cách quản lý cơ sở hạ tầng AI quy mô lớn, từ Docker, Kubernetes đến các công cụ IaC (Infrastructure-as-Code).
Sự Gia Tăng Của AI Mã Nguồn Mở
Theo báo cáo của IDC, 60% tổ chức hiện ưu tiên mô hình AI mã nguồn mở hơn các lựa chọn thương mại cho dự án AI tạo sinh (GenAI).
Nghiên cứu của Endor Labs cũng chỉ ra rằng:
- Trung bình một tổ chức sử dụng từ 7 đến 21 mô hình AI mã nguồn mở trên mỗi ứng dụng.
- Hơn 3.500 mô hình đã được huấn luyện hoặc tối ưu hóa từ DeepSeek R1 tính đến ngày 7/2/2024.
Sobrier nhấn mạnh rằng: “Chúng ta cần coi AI như một thành phần quan trọng trong chuỗi cung ứng phần mềm. Điều này giúp đảm bảo tính hợp pháp và bảo mật của mô hình trước khi sử dụng.”
Đặc biệt, các tập dữ liệu huấn luyện phải được kiểm tra kỹ lưỡng, tránh rủi ro từ dữ liệu nhiễm độc hoặc chứa thông tin nhạy cảm.
Xây Dựng Chiến Lược Quản Lý Rủi Ro AI
Để quản lý rủi ro từ AI mã nguồn mở, Stiefel đề xuất ba bước quan trọng:
- Phát hiện (Discovery): Xác định các mô hình AI đang được tổ chức sử dụng.
- Đánh giá (Evaluation): Kiểm tra mô hình về bảo mật, rủi ro vận hành và tính minh bạch.
- Phản hồi (Response): Thiết lập quy tắc và quy trình kiểm soát đảm bảo triển khai an toàn.
Stiefel nhấn mạnh: “Chìa khóa là cân bằng giữa đổi mới và quản lý rủi ro. Các nhóm kỹ thuật cần có quyền thử nghiệm, nhưng với sự giám sát đầy đủ.”
Sobrier cũng kêu gọi cộng đồng phát triển hệ thống đánh giá mô hình AI toàn diện, bao gồm:
- Chất lượng mô hình
- Bảo mật dữ liệu
- Rủi ro vận hành
- Mức độ mở thực sự
Tương Lai Của AI Minh Bạch Và Trách Nhiệm
Để đảm bảo sự phát triển bền vững của AI, ngành công nghiệp cần triển khai các biện pháp kiểm soát trên nhiều phương diện:
- Mô hình SaaS: Bảo vệ dữ liệu của nhân viên khi sử dụng AI trên nền tảng đám mây.
- API AI: Đảm bảo các tích hợp với bên thứ ba như DeepSeek không tạo ra lỗ hổng bảo mật.
- Mô hình nguồn mở: Xây dựng cộng đồng nghiên cứu AI có trách nhiệm.
Sobrier cảnh báo: “Chúng ta không thể chủ quan trước tốc độ phát triển của AI. Cần có phương pháp đánh giá khách quan về bảo mật, chất lượng và mức độ mở.”
Stiefel tổng kết: “Hãy suy nghĩ về bảo mật AI trên nhiều phương diện và áp dụng kiểm soát phù hợp cho từng lĩnh vực.”
Tìm hiểu thêm tại: https://chatgpt.com/