Chủ Nhật, Tháng 4 20, 2025

Ít hơn là nhiều hơn: UC Berkeley và Google mở khóa tiềm năng LLM thông qua việc lấy mẫu đơn giản

Phát hiện cốt lõi là ngay cả việc triển khai tối giản tìm kiếm dựa trên lấy mẫu, sử dụng lấy mẫu ngẫu nhiên và tự xác minh, cũng có thể nâng cao hiệu suất lý luận của các mô hình như Gemini 1.5 Pro vượt xa o1-Preview trên các chuẩn mực phổ biến. Những phát hiện này có thể có ý nghĩa quan trọng đối với các ứng dụng doanh nghiệp và thách thức giả định rằng đào tạo chuyên sâu hoặc kiến ​​trúc phức tạp luôn cần thiết để đạt được hiệu suất hàng đầu.

Giới hạn của khả năng mở rộng tính toán thời gian thử nghiệm hiện tại

Phương pháp phổ biến hiện nay để mở rộng thời gian thử nghiệm trong LLM là đào tạo mô hình thông qua học tăng cường để tạo ra phản hồi dài hơn với dấu vết chuỗi suy nghĩ (CoT). Phương pháp này được sử dụng trong các mô hình như OpenAI o1 và DeepSeek-R1 . Mặc dù có lợi, nhưng các phương pháp này thường đòi hỏi đầu tư đáng kể vào giai đoạn đào tạo.

Một phương pháp mở rộng thời gian kiểm tra khác là “tự nhất quán”, trong đó mô hình tạo ra nhiều phản hồi cho truy vấn và chọn câu trả lời xuất hiện thường xuyên hơn. Tự nhất quán đạt đến giới hạn khi xử lý các vấn đề phức tạp, vì trong những trường hợp này, câu trả lời được lặp lại nhiều nhất không nhất thiết là câu trả lời đúng.

Tìm kiếm dựa trên mẫu cung cấp một giải pháp thay thế đơn giản hơn và có khả năng mở rộng cao hơn cho việc mở rộng theo thời gian thử nghiệm: Cho phép mô hình tạo ra nhiều phản hồi và chọn phản hồi tốt nhất thông qua cơ chế xác minh. Tìm kiếm dựa trên mẫu có thể bổ sung cho các chiến lược mở rộng tính toán theo thời gian thử nghiệm khác và, như các nhà nghiên cứu viết trong bài báo của họ, “nó cũng có lợi thế độc đáo là song song một cách đáng xấu hổ và cho phép mở rộng tùy ý: chỉ cần lấy mẫu nhiều phản hồi hơn”.

Quan trọng hơn, tìm kiếm dựa trên lấy mẫu có thể được áp dụng cho bất kỳ LLM nào, kể cả những LLM chưa được đào tạo rõ ràng về lý luận.

Tìm kiếm dựa trên mẫu hoạt động như thế nào

Các nhà nghiên cứu tập trung vào việc triển khai tối giản tìm kiếm dựa trên mẫu, sử dụng mô hình ngôn ngữ để tạo ra phản hồi của ứng viên và xác minh chúng. Đây là quá trình “tự xác minh”, trong đó mô hình đánh giá đầu ra của chính nó mà không dựa vào các câu trả lời thực tế bên ngoài hoặc hệ thống xác minh tượng trưng.

Lấy mẫu dựa trên tìm kiếm
Lấy mẫu dựa trên tìm kiếm Tín dụng: VentureBeat

Thuật toán hoạt động theo một vài bước đơn giản: 

1—Thuật toán bắt đầu bằng cách tạo ra một tập hợp các giải pháp ứng viên cho vấn đề đã cho bằng cách sử dụng mô hình ngôn ngữ. Điều này được thực hiện bằng cách đưa ra cùng một lời nhắc nhiều lần cho mô hình và sử dụng cài đặt nhiệt độ khác không để tạo ra một tập hợp các phản hồi đa dạng.

2—Mỗi phản hồi của ứng viên đều trải qua quá trình xác minh trong đó LLM được nhắc nhiều lần để xác định xem phản hồi có đúng không. Sau đó, kết quả xác minh được tính trung bình để tạo ra điểm xác minh cuối cùng cho phản hồi.

3— Thuật toán chọn câu trả lời có điểm cao nhất làm câu trả lời cuối cùng. Nếu nhiều ứng viên ở gần nhau, LLM sẽ được nhắc so sánh từng cặp và chọn ra câu trả lời tốt nhất. Câu trả lời giành chiến thắng trong nhiều lần so sánh từng cặp nhất sẽ được chọn làm câu trả lời cuối cùng.

Các nhà nghiên cứu đã xem xét hai trục chính để mở rộng thời gian thử nghiệm:

Lấy mẫu: Số lượng phản hồi mà mô hình tạo ra cho mỗi vấn đề đầu vào.

Xác minh: Số điểm xác minh được tính toán cho mỗi giải pháp được tạo ra

Tìm kiếm dựa trên mẫu so sánh với các kỹ thuật khác như thế nào

Nghiên cứu cho thấy hiệu suất suy luận tiếp tục được cải thiện với tìm kiếm dựa trên lấy mẫu, ngay cả khi khả năng tính toán thời gian thử nghiệm được mở rộng vượt xa điểm mà tính nhất quán tự động bão hòa. 

Ở quy mô đủ lớn, việc triển khai tối giản này tăng đáng kể độ chính xác của suy luận trên các chuẩn suy luận như AIME và MATH. Ví dụ, hiệu suất của Gemini 1.5 Pro vượt trội hơn o1-Preview, vốn được đào tạo rõ ràng về các vấn đề suy luận, và Gemini 1.5 Flash vượt trội hơn Gemini 1.5 Pro.

Các nhà nghiên cứu viết: “Điều này không chỉ làm nổi bật tầm quan trọng của tìm kiếm dựa trên mẫu đối với khả năng mở rộng quy mô mà còn cho thấy tính hữu ích của tìm kiếm dựa trên mẫu như một cơ sở đơn giản để so sánh các chiến lược mở rộng quy mô tính toán thời gian thử nghiệm khác và đo lường những cải tiến thực sự trong khả năng tìm kiếm của mô hình”.

Điều đáng chú ý là trong khi kết quả của lấy mẫu dựa trên tìm kiếm rất ấn tượng, chi phí cũng có thể trở nên quá cao. Ví dụ, với 200 mẫu và 50 bước xác minh cho mỗi mẫu, một truy vấn từ AIME sẽ tạo ra khoảng 130 triệu mã thông báo, có giá 650 đô la với Gemini 1.5 Pro. Tuy nhiên, đây là một cách tiếp cận rất tối giản đối với tìm kiếm dựa trên lấy mẫu và nó tương thích với các kỹ thuật tối ưu hóa được đề xuất trong các nghiên cứu khác. Với các phương pháp lấy mẫu và xác minh thông minh hơn, chi phí suy luận có thể giảm đáng kể bằng cách sử dụng các mô hình nhỏ hơn và tạo ra ít mã thông báo hơn . Ví dụ, bằng cách sử dụng Gemini 1.5 Flash để thực hiện xác minh, chi phí giảm xuống còn 12 đô la cho mỗi câu hỏi.

Chiến lược tự xác minh hiệu quả

Có một cuộc tranh luận đang diễn ra về việc liệu LLM có thể xác minh câu trả lời của chính họ hay không. Các nhà nghiên cứu đã xác định hai chiến lược chính để cải thiện khả năng tự xác minh bằng cách sử dụng tính toán thời gian kiểm tra:

So sánh trực tiếp các ứng viên phản hồi: Sự không đồng nhất giữa các giải pháp ứng viên cho thấy rõ ràng các lỗi tiềm ẩn. Bằng cách cung cấp cho người xác minh nhiều phản hồi để so sánh, mô hình có thể xác định tốt hơn các lỗi và ảo giác, giải quyết điểm yếu cốt lõi của LLM. Các nhà nghiên cứu mô tả đây là một ví dụ về “mức độ mở rộng ngầm”.

Viết lại theo nhiệm vụ cụ thể: Các nhà nghiên cứu đề xuất rằng phong cách đầu ra tối ưu của LLM phụ thuộc vào nhiệm vụ. Chuỗi suy nghĩ có hiệu quả để giải quyết các nhiệm vụ lý luận, nhưng các phản hồi dễ xác minh hơn khi được viết theo phong cách chính thức hơn, thông thường về mặt toán học. Người xác minh có thể viết lại các phản hồi của ứng viên thành một định dạng có cấu trúc hơn (ví dụ: chứng minh định lý-bổ đề) trước khi đánh giá.

Các nhà nghiên cứu viết: “Chúng tôi dự đoán khả năng tự xác minh của mô hình sẽ cải thiện nhanh chóng trong thời gian ngắn, khi các mô hình học cách tận dụng các nguyên tắc về khả năng mở rộng ngầm và tính phù hợp của kiểu đầu ra, đồng thời thúc đẩy tốc độ mở rộng được cải thiện cho tìm kiếm dựa trên lấy mẫu”.

Ý nghĩa đối với các ứng dụng trong thế giới thực

Nghiên cứu chứng minh rằng một kỹ thuật tương đối đơn giản có thể đạt được kết quả ấn tượng, có khả năng giảm nhu cầu về kiến ​​trúc mô hình hoặc chế độ đào tạo phức tạp và tốn kém.

Đây cũng là một kỹ thuật có thể mở rộng, cho phép các doanh nghiệp tăng hiệu suất bằng cách phân bổ nhiều tài nguyên tính toán hơn cho việc lấy mẫu và xác minh. Nó cũng cho phép các nhà phát triển đẩy các mô hình ngôn ngữ biên giới vượt ra ngoài giới hạn của chúng đối với các tác vụ phức tạp.

Các nhà nghiên cứu viết: “Do nó bổ sung cho các chiến lược mở rộng tính toán thời gian thử nghiệm khác, có thể song song hóa và cho phép mở rộng tùy ý, đồng thời chấp nhận các triển khai đơn giản có hiệu quả rõ rệt, chúng tôi hy vọng tìm kiếm dựa trên lấy mẫu sẽ đóng vai trò quan trọng khi các mô hình ngôn ngữ được giao nhiệm vụ giải quyết các vấn đề ngày càng phức tạp với ngân sách tính toán ngày càng lớn”. 

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

So Sánh ChatGPT o3, o4-mini, GPT-4o và GPT-4.5: Mô Hình Nào Hoạt Động Tốt Nhất?

OpenAI đã làm dày thêm danh sách mô hình...

Meta FAIR Ra Mắt 5 Dự Án AI Mới, Hướng Tới Trí Tuệ Máy Giống Với Con Người

Nhóm Nghiên cứu AI Cốt lõi FAIR (Fundamental AI...

Thông báo, tin tức và nhiều thông tin khác của NVIDIA từ GTC 2025

Cuộc cách mạng AI đang tăng tốc nhờ các...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »