s3 có thể mang lại lợi ích cho các nhà phát triển tạo ra các ứng dụng mô hình ngôn ngữ lớn (LLM) trong thế giới thực, vì nó đơn giản hóa và giảm chi phí tạo các mô hình truy xuất trong kiến trúc RAG.
Lấy lại RAG
Hiệu quả của bất kỳ hệ thống RAG nào đều phụ thuộc vào chất lượng của thành phần truy xuất. Trong bài báo của mình , các nhà nghiên cứu phân loại sự phát triển của các phương pháp tiếp cận RAG thành ba giai đoạn riêng biệt.
- Hệ thống “RAG cổ điển” dựa vào các phương pháp truy xuất tĩnh với các truy vấn cố định, trong đó chất lượng truy xuất không liên quan đến hiệu suất tạo cuối cùng. Các kiến trúc này gặp khó khăn với các truy vấn yêu cầu suy luận theo ngữ cảnh hoặc đa bước nhảy.
- Giai đoạn tiếp theo, được gọi là “Pre-RL-Zero”, giới thiệu sự tham gia LLM tích cực hơn trong quá trình suy luận. Các kỹ thuật này bao gồm tương tác nhiều lượt, xen kẽ tạo truy vấn, truy xuất và lý luận. Tuy nhiên, chúng thường phụ thuộc vào nhắc nhở zero-shot và thiếu các thành phần có thể đào tạo để tối ưu hóa việc truy xuất thông qua các tín hiệu kết quả trực tiếp.
- Giai đoạn gần đây nhất, “RL-Zero,” tận dụng học tăng cường (RL) để đào tạo các mô hình hoạt động như tác nhân tìm kiếm, cải thiện thông qua phản hồi dựa trên kết quả như tính đúng đắn của câu trả lời. Một ví dụ là Search-R1 , đào tạo mô hình để xen kẽ lý luận với các truy vấn tìm kiếm và ngữ cảnh đã truy xuất.
Bất chấp những tiến bộ của chúng, các phương pháp RL-Zero hiện tại thường tối ưu hóa việc truy xuất bằng cách sử dụng các số liệu tập trung vào tìm kiếm bỏ qua tiện ích hạ nguồn. Hơn nữa, chúng đòi hỏi phải tinh chỉnh LLM , tốn kém và dễ xảy ra lỗi. Bằng cách vướng víu việc truy xuất với thế hệ, chúng hạn chế tiện ích tìm kiếm thực tế và khả năng tương thích với các mô hình đóng băng hoặc độc quyền.

Theo như các nhà nghiên cứu đã nói, “Điều này thúc đẩy sự chuyển dịch sang một khuôn khổ mô-đun trong đó tìm kiếm và tạo ra được tách biệt rõ ràng, và quá trình tối ưu hóa tập trung hoàn toàn vào chất lượng tìm kiếm liên quan đến tiện ích hạ nguồn”.
s3
Khung s3 giải quyết thách thức này bằng cách tiếp cận không phụ thuộc vào mô hình. Ý tưởng chính là đào tạo một tác nhân tìm kiếm với quyền truy cập có cấu trúc, nhiều lượt vào kiến thức bên ngoài. Tác nhân tìm kiếm này cải thiện chất lượng của giai đoạn truy xuất mà không ảnh hưởng đến LLM tạo ra câu trả lời cuối cùng.
Trong s3, một LLM tìm kiếm chuyên dụng tương tác lặp đi lặp lại với một công cụ tìm kiếm. Nó tạo ra các truy vấn dựa trên lời nhắc, truy xuất các tài liệu có liên quan, chọn một tập hợp con bằng chứng hữu ích và quyết định có nên tiếp tục tìm kiếm thêm thông tin hay không. Khi quá trình tìm kiếm kết thúc, một LLM tạo riêng biệt, đóng băng sẽ sử dụng bằng chứng tích lũy này để tạo ra câu trả lời cuối cùng.

Một cải tiến cốt lõi của s3 là tín hiệu phần thưởng, Gain Beyond RAG (GBR). GBR định lượng sự cải thiện về độ chính xác của trình tạo khi được điều kiện hóa trên các tài liệu được s3 truy xuất, so với đường cơ sở truy xuất các tài liệu hàng đầu khớp với truy vấn. Phần thưởng này khuyến khích người tìm kiếm tìm các tài liệu thực sự nâng cao chất lượng đầu ra của trình tạo.
“s3 tách bộ thu thập (tìm kiếm) khỏi bộ tạo. Điều này cho phép các công ty cắm bất kỳ LLM có sẵn hoặc độc quyền nào—cho dù là GPT-4, Claude hay mô hình nội bộ—mà không cần phải tinh chỉnh nó”, Patrick (Pengcheng) Jiang, tác giả chính của bài báo và là nghiên cứu sinh tiến sĩ tại UIUC, nói với VentureBeat. “Đối với các doanh nghiệp có ràng buộc về mặt pháp lý hoặc hợp đồng đối với việc sửa đổi mô hình hoặc những doanh nghiệp dựa vào API LLM nguồn đóng, tính mô-đun này làm cho s3 trở nên cực kỳ thiết thực. Nó cho phép họ nâng cao chất lượng tìm kiếm mà không cần tác động đến cơ sở hạ tầng tạo ra của họ”.
s3 đang hoạt động
Các nhà nghiên cứu đã thử nghiệm s3 trên sáu chuẩn trả lời câu hỏi miền chung, so sánh nó với ba loại hệ thống RAG: Tinh chỉnh đầu cuối (ví dụ: Search-R1), truy xuất tĩnh với các trình tạo đóng băng (chẳng hạn như đường ống RAG cổ điển) và truy xuất chủ động với các trình tạo đóng băng (ví dụ: kết hợp các tài liệu thu được bằng Search-R1 với LLM đóng băng). Trong các thí nghiệm của mình, họ đã sử dụng Qwen2.5-7B-Instruct làm mô hình cơ sở cho trình tìm kiếm và Qwen2.5-14B-Instruct và Claude 3 Haiku làm LLM trình tạo đóng băng.
s3 đã vượt qua các đường cơ sở tĩnh, zero-shot và end-to-end được điều chỉnh trên hầu hết các điểm chuẩn và đạt được điểm trung bình. Hiệu quả dữ liệu của nó đặc biệt đáng chú ý: s3 đạt được mức tăng mạnh chỉ với 2,4 nghìn ví dụ đào tạo, ít hơn đáng kể so với 70 nghìn ví dụ mà DeepRetrieval (một khuôn khổ truy xuất tĩnh) yêu cầu hoặc 170 nghìn ví dụ mà Search-R1 yêu cầu, trong khi vẫn vượt trội về cả chất lượng ngữ cảnh và hiệu suất câu trả lời cuối cùng.

“Nhiều doanh nghiệp thiếu các tập dữ liệu QA có chú thích quy mô lớn hoặc cơ sở hạ tầng GPU để tinh chỉnh các hệ thống LLM đầu cuối. s3 hạ thấp rào cản bằng cách cho phép hiệu suất truy xuất mạnh mẽ với giám sát và tính toán tối thiểu”, Jiang cho biết. “Điều này có nghĩa là tạo mẫu nhanh hơn, giảm chi phí và thời gian triển khai nhanh hơn cho các ứng dụng tìm kiếm hỗ trợ AI”.
Những phát hiện này cho thấy một sự thay đổi cơ bản trong chiến lược tối ưu hóa. Như các nhà nghiên cứu lưu ý trong bài báo, hầu hết hiệu suất tăng trong RAG bắt nguồn từ “cải thiện khả năng tìm kiếm thay vì căn chỉnh đầu ra thế hệ”, ngụ ý rằng việc tập trung RL vào chiến lược tìm kiếm thay vì căn chỉnh thế hệ kết hợp mang lại kết quả tốt hơn.
Một phát hiện quan trọng khác đối với các ứng dụng doanh nghiệp là khả năng khái quát hóa của s3 sang các miền mà nó chưa được đào tạo. s3 đã cho thấy thành công không cần nỗ lực về QA y tế mặc dù chỉ được đào tạo về QA chung, điều này cho thấy “các kỹ năng tìm kiếm học được bằng cách tăng cường khái quát hóa đáng tin cậy hơn so với các phương pháp điều chỉnh theo thế hệ”, theo các nhà nghiên cứu.
Khả năng thích ứng đa miền này làm cho s3 phù hợp với các ứng dụng doanh nghiệp chuyên biệt thường xử lý các tập dữ liệu độc quyền hoặc tùy chỉnh mà không yêu cầu dữ liệu đào tạo chuyên biệt cho miền. Điều này có nghĩa là một người tìm kiếm được đào tạo duy nhất có thể phục vụ các phòng ban khác nhau (ví dụ: pháp lý, nhân sự, hỗ trợ khách hàng) hoặc thích ứng với nội dung đang phát triển như tài liệu sản phẩm mới.
Jiang cho biết: “Chúng tôi thấy tiềm năng ngay lập tức trong chăm sóc sức khỏe, quản lý kiến thức doanh nghiệp và hỗ trợ nghiên cứu khoa học, nơi chất lượng truy xuất cao là rất quan trọng và dữ liệu được gắn nhãn thường khan hiếm”.