Thứ Năm, Tháng 6 19, 2025

Cựu DeepSeeker và cộng sự phát hành phương pháp mới để đào tạo các tác nhân AI đáng tin cậy: RAGEN

Nhưng cho đến nay, hầu hết các tác nhân AI vẫn bị mắc kẹt như những phi công thử nghiệm trong một loại luyện ngục của công ty, theo một cuộc thăm dò gần đây do 
VentureBeat thực hiện trên mạng xã hội X.

Có thể sẽ có sự trợ giúp: một nhóm cộng tác từ Đại học Northwestern, Microsoft, Stanford và Đại học Washington — bao gồm một cựu nghiên cứu viên DeepSeek tên là Zihan Wang , hiện đang hoàn thành chương trình tiến sĩ khoa học máy tính tại Northwestern — đã giới thiệu RAGEN , một hệ thống mới để đào tạo và đánh giá các tác nhân AI mà họ hy vọng sẽ giúp chúng đáng tin cậy hơn và ít bị ảnh hưởng hơn khi sử dụng trong thế giới thực, ở cấp độ doanh nghiệp.

Không giống như các tác vụ tĩnh như giải toán hay tạo mã, RAGEN tập trung vào các thiết lập tương tác nhiều lượt, trong đó các tác nhân phải thích nghi, ghi nhớ và lý luận khi đối mặt với sự không chắc chắn.

Được xây dựng trên một khuôn khổ RL tùy chỉnh có tên là StarPO (State-Thinking-Actions-Reward Policy Optimization), hệ thống khám phá cách LLM có thể học thông qua kinh nghiệm thay vì ghi nhớ. Trọng tâm là toàn bộ quỹ đạo ra quyết định, không chỉ là phản ứng một bước.

StarPO hoạt động theo hai giai đoạn xen kẽ: giai đoạn triển khai, trong đó LLM tạo ra các chuỗi tương tác hoàn chỉnh được hướng dẫn bằng lý luận và giai đoạn cập nhật, trong đó mô hình được tối ưu hóa bằng cách sử dụng phần thưởng tích lũy được chuẩn hóa. Cấu trúc này hỗ trợ vòng lặp học tập ổn định và dễ diễn giải hơn so với các phương pháp tối ưu hóa chính sách tiêu chuẩn.

Các tác giả đã triển khai và thử nghiệm khuôn khổ bằng cách sử dụng các biến thể tinh chỉnh của các mô hình Qwen của Alibaba, bao gồm Qwen 1.5 và Qwen 2.5. Các mô hình này đóng vai trò là LLM cơ sở cho tất cả các thí nghiệm và được lựa chọn vì trọng số mở và khả năng tuân theo hướng dẫn mạnh mẽ của chúng. Quyết định này cho phép tái tạo và so sánh đường cơ sở nhất quán trên các tác vụ tượng trưng.

Sau đây là cách họ đã thực hiện và những gì họ tìm thấy:

Bẫy tiếng vang: phần thưởng học tăng cường dẫn đến mất lý luận LLM như thế nào

Wang đã tóm tắt thách thức cốt lõi trong chủ đề X được chia sẻ rộng rãi : Tại sao quá trình đào tạo thực tế của bạn luôn thất bại?

Theo nhóm nghiên cứu, các tác nhân LLM ban đầu tạo ra các phản hồi mang tính biểu tượng, có lý lẽ rõ ràng. Nhưng theo thời gian, các hệ thống RL có xu hướng thưởng cho các lối tắt, dẫn đến các hành vi lặp đi lặp lại làm giảm hiệu suất chung—một mô hình mà họ gọi là “Bẫy tiếng vang”.

Sự thoái triển này được thúc đẩy bởi các vòng phản hồi trong đó một số cụm từ hoặc chiến lược nhất định mang lại phần thưởng lớn ngay từ đầu, khuyến khích sử dụng quá mức và kìm hãm việc khám phá.

Wang lưu ý rằng các triệu chứng có thể đo lường được: sự chênh lệch phần thưởng giảm mạnh, sự tăng đột biến về mức độ và dấu vết lý luận biến mất.

Môi trường thử nghiệm RAGEN không hẳn là cấp doanh nghiệp

Để nghiên cứu những hành vi này trong bối cảnh được kiểm soát, RAGEN đánh giá các tác nhân trên ba môi trường tượng trưng:

  • Bandit : Một nhiệm vụ ngẫu nhiên, có một lượt chơi, kiểm tra lý luận rủi ro-phần thưởng mang tính biểu tượng.
  • Sokoban : Một trò chơi giải đố nhiều lượt, mang tính quyết định liên quan đến những quyết định không thể đảo ngược.
  • Hồ đóng băng : Một nhiệm vụ ngẫu nhiên, nhiều lượt, đòi hỏi phải có kế hoạch thích ứng.

Mỗi môi trường được thiết kế để giảm thiểu những hiểu biết trước đây trong thế giới thực và chỉ tập trung vào các chiến lược ra quyết định được phát triển trong quá trình đào tạo.

Ví dụ, trong môi trường Bandit, các tác nhân được thông báo rằng cánh tay Dragon và Phoenix đại diện cho các phần thưởng phân phối khác nhau.

Thay vì được cho biết trực tiếp về xác suất, họ phải lý luận theo biểu tượng—ví dụ, giải thích Rồng là “sức mạnh” và Phượng hoàng là “hy vọng”—để dự đoán kết quả. Kiểu thiết lập này gây áp lực cho mô hình để tạo ra lý luận tương tự, có thể giải thích được.

Ổn định việc học tăng cường với StarPO-S

Để giải quyết tình trạng sụp đổ đào tạo, các nhà nghiên cứu đã giới thiệu StarPO-S, một phiên bản ổn định của khuôn khổ ban đầu. StarPO-S kết hợp ba biện pháp can thiệp chính:

  1. Lọc triển khai dựa trên sự không chắc chắn : Ưu tiên triển khai khi tác nhân cho thấy kết quả không chắc chắn.
  2. Xóa bỏ hình phạt KL : Cho phép mô hình tự do thay đổi chính sách ban đầu và khám phá các hành vi mới.
  3. Cắt PPO không đối xứng : Khuếch đại các quỹ đạo có phần thưởng cao hơn các quỹ đạo có phần thưởng thấp để thúc đẩy việc học.

Những thay đổi này trì hoãn hoặc loại bỏ sự sụp đổ trong quá trình đào tạo và cải thiện hiệu suất trên cả ba nhiệm vụ. Như Wang đã nói: “StarPO-S… hoạt động trên cả 3 nhiệm vụ. Giảm sự sụp đổ. Phần thưởng tốt hơn.”

Thế nào là một mô hình AI tác nhân tốt?

Sự thành công của đào tạo RL không chỉ phụ thuộc vào kiến ​​trúc mà còn phụ thuộc vào chất lượng dữ liệu do chính các tác nhân tạo ra. Nhóm đã xác định ba chiều có tác động đáng kể đến đào tạo:

  • Tính đa dạng của nhiệm vụ : Việc đưa mô hình vào nhiều tình huống ban đầu khác nhau sẽ cải thiện khả năng khái quát hóa.
  • Mức độ tương tác chi tiết : Cho phép nhiều hành động trong mỗi lượt giúp lập kế hoạch có ý nghĩa hơn.
  • Cập nhật mới khi triển khai : Việc duy trì dữ liệu đào tạo phù hợp với chính sách mô hình hiện tại sẽ tránh được các tín hiệu học tập lỗi thời.

Những yếu tố này kết hợp lại với nhau làm cho quá trình đào tạo ổn định và hiệu quả hơn.

Một trang web demo tương tác do các nhà nghiên cứu công bố trên Github nêu rõ điều này, trực quan hóa việc triển khai tác nhân dưới dạng các cuộc đối thoại đầy đủ—không chỉ bao gồm các hành động mà còn cả quá trình suy nghĩ từng bước diễn ra trước đó.

Ví dụ, khi giải một bài toán, trước tiên một tác nhân có thể ‘nghĩ’ về việc cô lập một biến, sau đó đưa ra câu trả lời như ‘x = 5’. Những suy nghĩ trung gian này có thể nhìn thấy và theo dõi được, giúp tăng tính minh bạch trong cách các tác nhân đưa ra quyết định.

Khi lý luận cạn kiệt

Trong khi lý luận rõ ràng cải thiện hiệu suất trong các nhiệm vụ đơn giản, một lượt như Bandit, nó có xu hướng giảm trong quá trình đào tạo nhiều lượt. Mặc dù sử dụng các lời nhắc và mã thông báo có cấu trúc, các dấu vết lý luận thường bị thu hẹp hoặc biến mất trừ khi được thưởng trực tiếp.

Điều này chỉ ra một hạn chế trong cách thiết kế phần thưởng thông thường: tập trung vào việc hoàn thành nhiệm vụ có thể bỏ qua chất lượng của quy trình đằng sau nó. Nhóm đã thử nghiệm các hình phạt dựa trên định dạng để khuyến khích lý luận có cấu trúc tốt hơn, nhưng thừa nhận rằng có thể cần phải định hình phần thưởng tinh tế hơn.

Mở công cụ

RAGEN, cùng với các khuôn khổ StarPO và StarPO-S, hiện có sẵn dưới dạng dự án mã nguồn mở tại https://github.com/RAGEN-AI/RAGEN . Tuy nhiên, không có giấy phép rõ ràng nào được liệt kê trong kho lưu trữ GitHub tại thời điểm viết bài, điều này có thể hạn chế việc sử dụng hoặc phân phối lại của những người khác.

Hệ thống này cung cấp nền tảng có giá trị cho những ai quan tâm đến việc phát triển các tác nhân AI có khả năng làm nhiều việc hơn là chỉ hoàn thành nhiệm vụ—chúng có khả năng suy nghĩ, lập kế hoạch và phát triển.

Khi AI tiếp tục hướng tới tính tự chủ, các dự án như RAGEN giúp làm sáng tỏ những gì cần thiết để đào tạo các mô hình có khả năng học không chỉ từ dữ liệu mà còn từ hậu quả của chính hành động của chúng.

Những câu hỏi nổi bật cho việc áp dụng trong thế giới thực

Trong khi bài báo RAGEN đưa ra lộ trình kỹ thuật chi tiết, vẫn còn một số câu hỏi thực tế dành cho những người muốn áp dụng các phương pháp này trong bối cảnh doanh nghiệp. Ví dụ, phương pháp tiếp cận của RAGEN có thể chuyển giao được như thế nào ngoài các nhiệm vụ mang tính biểu tượng, cách điệu? Các doanh nghiệp có cần thiết kế các môi trường hoàn toàn mới và các chức năng khen thưởng để sử dụng hệ thống này trong các quy trình công việc như xử lý hóa đơn hoặc hỗ trợ khách hàng không?

Một lĩnh vực quan trọng khác là khả năng mở rộng. Ngay cả với những cải tiến được cung cấp bởi StarPO-S, bài báo thừa nhận rằng đào tạo cuối cùng vẫn sụp đổ trong các đường chân trời dài hơn. Điều này đặt ra câu hỏi: có một con đường lý thuyết hoặc thực tế nào để duy trì lý luận trên các chuỗi nhiệm vụ mở hoặc liên tục phát triển không?

Tại thời điểm viết bài, không có giấy phép rõ ràng nào được liệt kê trong kho lưu trữ hoặc tài liệu RAGEN GitHub, do đó vẫn còn nhiều câu hỏi chưa có lời giải về quyền sử dụng.

Để khám phá những câu hỏi này và những câu hỏi khác—bao gồm cách những người ra quyết định không chuyên môn nên diễn giải những hàm ý của RAGEN—tôi đã liên hệ với đồng tác giả Wang để có thêm thông tin chi tiết. Tại thời điểm viết bài, phản hồi vẫn đang chờ xử lý. Nếu có bất kỳ bình luận nào, chúng tôi sẽ đưa vào phần tiếp theo của bài viết này hoặc tích hợp dưới dạng bản cập nhật.

RAGEN nổi bật không chỉ là một đóng góp về mặt kỹ thuật mà còn là một bước tiến về mặt khái niệm hướng tới các tác nhân AI có khả năng suy luận và tự chủ hơn. Liệu nó có trở thành một phần của ngăn xếp AI doanh nghiệp hay không vẫn còn phải chờ xem, nhưng những hiểu biết sâu sắc của nó về động lực học tập của tác nhân đã giúp xác định lại ranh giới của đào tạo LLM.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Ren Zhengfei: Huawei và chiến lược AI thầm lặng của Trung Quốc

CEO Huawei chia sẻ về tương lai trí tuệ...

Groq vừa làm cho Hugging Face nhanh hơn nhiều — và nó sẽ có trên AWS và Google

Công ty đã công bố vào thứ Hai rằng...

Ericsson và AWS bắt tay tạo ra mạng di động “tự chữa lành” nhờ AI

Liên minh giữa hai ông lớn viễn thông và...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »