Thứ Ba, Tháng 6 17, 2025

Phương pháp mới cho phép DeepSeek và các mô hình khác trả lời các câu hỏi ‘nhạy cảm’

Một ủy ban đặc biệt tại Quốc hội Hoa Kỳ gần đây đã công bố báo cáo có tên DeepSeek, “một mối đe dọa sâu sắc đến an ninh quốc gia chúng ta” và đưa ra các khuyến nghị chính sách chi tiết. 

Mặc dù có nhiều cách để vượt qua sự thiên vị thông qua Học tăng cường từ phản hồi của con người (RLHF) và tinh chỉnh, công ty khởi nghiệp quản lý rủi ro doanh nghiệp CTGT tuyên bố có một cách tiếp cận thay thế. CTGT đã phát triển một phương pháp vượt qua sự thiên vị và kiểm duyệt được tích hợp vào một số mô hình ngôn ngữ mà họ cho biết là loại bỏ kiểm duyệt 100%.

Trong một bài báo , Cyril Gorlla và Trevor Tuttle của CTGT cho biết khuôn khổ của họ “trực tiếp xác định và sửa đổi các tính năng bên trong chịu trách nhiệm kiểm duyệt”.

Bài báo cho biết: “Cách tiếp cận này không chỉ hiệu quả về mặt tính toán mà còn cho phép kiểm soát chặt chẽ hành vi của mô hình, đảm bảo đưa ra các phản hồi không bị kiểm duyệt mà không ảnh hưởng đến khả năng tổng thể và độ chính xác thực tế của mô hình”. 

Mặc dù phương pháp này được phát triển rõ ràng dành cho DeepSeek-R1-Distill-Llama-70B, nhưng quy trình tương tự cũng có thể được sử dụng trên các mô hình khác. 

“Chúng tôi đã thử nghiệm CTGT với các mô hình trọng số mở khác như Llama và thấy rằng nó cũng hiệu quả như vậy”, Gorlla nói với VentureBeat trong một email. “Công nghệ của chúng tôi hoạt động ở cấp độ mạng nơ-ron cơ bản, nghĩa là nó áp dụng cho tất cả các mô hình học sâu. Chúng tôi đang làm việc với một phòng thí nghiệm mô hình cơ bản hàng đầu để đảm bảo các mô hình mới của họ đáng tin cậy và an toàn từ cốt lõi”.

Nó hoạt động như thế nào

Các nhà nghiên cứu cho biết phương pháp của họ xác định những đặc điểm có khả năng cao liên quan đến hành vi không mong muốn. 

Gorlla và Tuttle viết rằng: “Ý tưởng chính là trong một mô hình ngôn ngữ lớn, có các biến tiềm ẩn (nơ-ron hoặc hướng trong trạng thái ẩn) tương ứng với các khái niệm như ‘kích hoạt kiểm duyệt’ hoặc ‘cảm xúc độc hại’. Nếu chúng ta có thể tìm thấy các biến đó, chúng ta có thể trực tiếp thao túng chúng”. 

CTGT cho biết có ba bước chính:

  1. Nhận dạng tính năng
  2. Phân lập và đặc điểm tính chất
  3. Sửa đổi tính năng động. 

Các nhà nghiên cứu tạo ra một loạt các lời nhắc có thể kích hoạt một trong những “cảm xúc độc hại” đó. Ví dụ, họ có thể yêu cầu thêm thông tin về Quảng trường Thiên An Môn hoặc yêu cầu mẹo để vượt qua tường lửa. Dựa trên các phản hồi, họ chạy các lời nhắc và thiết lập một mẫu và tìm các vectơ mà mô hình quyết định kiểm duyệt thông tin. 

Khi đã xác định được những đặc điểm này, các nhà nghiên cứu có thể cô lập đặc điểm đó và tìm ra phần nào của hành vi không mong muốn mà nó kiểm soát. Hành vi có thể bao gồm phản ứng thận trọng hơn hoặc từ chối phản ứng hoàn toàn. Hiểu được hành vi mà đặc điểm kiểm soát, các nhà nghiên cứu sau đó có thể “tích hợp một cơ chế vào đường ống suy luận của mô hình” để điều chỉnh mức độ kích hoạt hành vi của đặc điểm.

Làm cho mô hình trả lời nhiều lời nhắc hơn

CTGT cho biết các thí nghiệm của họ, sử dụng 100 truy vấn nhạy cảm, cho thấy mô hình DeepSeek-R1-Distill-Llama-70B cơ bản chỉ trả lời được 32% các câu hỏi gây tranh cãi mà nó được đưa vào. Nhưng phiên bản đã sửa đổi đã trả lời được 96% các câu hỏi. 4% còn lại, CTGT giải thích, là nội dung cực kỳ nhạy cảm. 

Công ty cho biết mặc dù phương pháp này cho phép người dùng chuyển đổi mức độ hoạt động của các tính năng an toàn và thiên vị tích hợp, nhưng họ vẫn tin rằng mô hình này sẽ không trở thành “một máy phát điện liều lĩnh”, đặc biệt là nếu chỉ loại bỏ kiểm duyệt không cần thiết. 

Phương pháp này cũng không làm giảm độ chính xác hoặc hiệu suất của mô hình. 

“Điều này về cơ bản khác với việc tinh chỉnh truyền thống vì chúng tôi không tối ưu hóa trọng số mô hình hoặc cung cấp cho nó các phản hồi ví dụ mới. Điều này có hai lợi thế chính: các thay đổi có hiệu lực ngay lập tức đối với thế hệ mã thông báo tiếp theo, trái ngược với nhiều giờ hoặc nhiều ngày đào tạo lại; và khả năng đảo ngược và thích ứng, vì không có trọng số nào thay đổi vĩnh viễn, mô hình có thể được chuyển đổi giữa các hành vi khác nhau bằng cách bật hoặc tắt điều chỉnh tính năng, hoặc thậm chí được điều chỉnh ở các mức độ khác nhau cho các bối cảnh khác nhau”, bài báo cho biết. 

Mô hình an toàn và bảo mật

Báo cáo của quốc hội về DeepSeek khuyến nghị Hoa Kỳ “hành động nhanh chóng để mở rộng kiểm soát xuất khẩu, cải thiện việc thực thi kiểm soát xuất khẩu và giải quyết các rủi ro từ các mô hình trí tuệ nhân tạo của Trung Quốc”. 

Khi chính phủ Hoa Kỳ bắt đầu đặt câu hỏi về mối đe dọa tiềm tàng của DeepSeek đối với an ninh quốc gia, các nhà nghiên cứu và công ty AI đã tìm cách để làm cho nó và các mô hình khác trở nên “an toàn”.

Đôi khi rất khó để đánh giá điều gì là “an toàn” hay “không an toàn”, thiên vị hay bị kiểm duyệt, nhưng việc phát triển các phương pháp cho phép người dùng tìm ra cách chuyển đổi các điều khiển để mô hình hoạt động có thể rất hữu ích. 

Gorlla cho biết các doanh nghiệp “cần phải tin tưởng rằng mô hình của họ phù hợp với chính sách của họ”, đó là lý do tại sao các phương pháp như phương pháp mà ông giúp phát triển lại rất quan trọng đối với doanh nghiệp. 

“CTGT cho phép các công ty triển khai AI thích ứng với các trường hợp sử dụng của họ mà không cần phải chi hàng triệu đô la để tinh chỉnh các mô hình cho từng trường hợp sử dụng. Điều này đặc biệt quan trọng trong các ứng dụng có rủi ro cao như bảo mật, tài chính và chăm sóc sức khỏe, nơi mà những tác hại tiềm ẩn có thể xảy ra do AI trục trặc là rất nghiêm trọng”, ông cho biết. 

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »