Khi lý luận của AI sai: Nghiên cứu của Microsoft cho thấy nhiều mã thông báo hơn có thể có nghĩa là nhiều vấn đề hơn

Phát hiện cốt lõi là việc chỉ cần tính toán nhiều hơn vào một vấn đề trong quá trình suy luận không đảm bảo kết quả tốt hơn hoặc hiệu quả hơn. Những phát hiện này có thể giúp các doanh nghiệp hiểu rõ hơn về sự biến động chi phí và độ tin cậy của mô hình khi họ tìm cách tích hợp lý luận AI tiên tiến vào các ứng dụng của mình.

Đưa các phương pháp mở rộng quy mô vào thử nghiệm

Nhóm nghiên cứu của Microsoft đã tiến hành phân tích thực nghiệm mở rộng trên chín mô hình nền tảng tiên tiến. Điều này bao gồm cả các mô hình “thông thường” như GPT-4o , Claude 3.5 Sonnet , Gemini 2.0 Pro và Llama 3.1 405B , cũng như các mô hình được tinh chỉnh cụ thể để tăng cường khả năng suy luận thông qua việc mở rộng thời gian suy luận. Điều này bao gồm o1 và o3-mini của OpenAI, Claude 3.7 Sonnet của Anthropic, Gemini 2 Flash Thinking của Google và DeepSeek R1 .

Họ đã đánh giá các mô hình này bằng ba phương pháp đo lường thời gian suy luận riêng biệt:

Chuỗi suy nghĩ chuẩn (CoT): Phương pháp cơ bản trong đó mô hình được nhắc trả lời theo từng bước.
Mở rộng song song: mô hình tạo ra nhiều câu trả lời độc lập cho cùng một câu hỏi và sử dụng bộ tổng hợp (như bỏ phiếu đa số hoặc chọn câu trả lời có điểm cao nhất) để đưa ra kết quả cuối cùng.
Quy mô tuần tự: Mô hình lặp đi lặp lại việc tạo ra câu trả lời và sử dụng phản hồi từ người phê bình (có thể là từ chính mô hình) để tinh chỉnh câu trả lời trong những lần thử tiếp theo.

Các phương pháp tiếp cận này đã được thử nghiệm trên tám tập dữ liệu chuẩn đầy thử thách bao gồm nhiều nhiệm vụ có lợi từ việc giải quyết vấn đề từng bước: toán học và lý luận STEM (AIME, Omni-MATH, GPQA), lập kế hoạch lịch (BA-Calendar), các bài toán NP-khó (3SAT, TSP), điều hướng (Maze) và lý luận không gian (SpatialMap).

Một số chuẩn mực bao gồm các bài toán có nhiều mức độ khó khác nhau, cho phép hiểu rõ hơn về cách thức mở rộng quy mô khi các bài toán trở nên khó hơn.

Các nhà nghiên cứu đã viết trong bài báo nêu chi tiết những phát hiện của họ rằng: “Việc cung cấp các thẻ khó cho Omni-MATH, TSP, 3SAT và BA-Calendar cho phép chúng tôi phân tích cách độ chính xác và mức độ sử dụng mã thông báo tỷ lệ thuận với độ khó trong việc mở rộng thời gian suy luận, đây là một góc nhìn vẫn chưa được khám phá đầy đủ “ .

Các nhà nghiên cứu đã đánh giá ranh giới Pareto của lý luận LLM bằng cách phân tích cả độ chính xác và chi phí tính toán (tức là số lượng mã thông báo được tạo ra). Điều này giúp xác định mức độ hiệu quả của các mô hình đạt được kết quả của chúng.

Pareto mở rộng thời gian suy luận — *Biên giới Pareto theo thời gian suy luận Tín dụng: arXiv*

Họ cũng giới thiệu biện pháp “khoảng cách giữa thông thường và lý luận”, so sánh hiệu suất tốt nhất có thể của một mô hình thông thường (sử dụng lựa chọn “tốt nhất trong N” lý tưởng) với hiệu suất trung bình của một mô hình lý luận, ước tính mức tăng tiềm năng có thể đạt được thông qua các kỹ thuật đào tạo hoặc xác minh tốt hơn.

Tính toán nhiều hơn không phải lúc nào cũng là câu trả lời

Nghiên cứu này cung cấp một số hiểu biết quan trọng thách thức các giả định phổ biến về quy mô thời gian suy luận:

Lợi ích thay đổi đáng kể: Trong khi các mô hình được điều chỉnh cho lý luận thường vượt trội hơn các mô hình thông thường trong các nhiệm vụ này, mức độ cải thiện thay đổi rất nhiều tùy thuộc vào phạm vi và nhiệm vụ cụ thể. Lợi ích thường giảm khi độ phức tạp của vấn đề tăng lên. Ví dụ, cải thiện hiệu suất được thấy trong các bài toán không phải lúc nào cũng chuyển thành lý luận khoa học hoặc nhiệm vụ lập kế hoạch.

Sự thiếu hiệu quả của token đang lan tràn: Các nhà nghiên cứu đã quan sát thấy sự biến động cao trong mức tiêu thụ token, ngay cả giữa các mô hình đạt được độ chính xác tương tự. Ví dụ, trên chuẩn toán AIME 2025, DeepSeek-R1 đã sử dụng nhiều token hơn Claude 3.7 Sonnet gấp năm lần để có độ chính xác trung bình tương đương.

Nhiều token hơn không dẫn đến độ chính xác cao hơn: Trái ngược với ý tưởng trực quan rằng chuỗi suy luận dài hơn có nghĩa là suy luận tốt hơn, nghiên cứu phát hiện ra rằng điều này không phải lúc nào cũng đúng. “Điều đáng ngạc nhiên là chúng tôi cũng quan sát thấy rằng các thế hệ dài hơn so với cùng một mô hình đôi khi có thể là chỉ báo về các mô hình đang gặp khó khăn, thay vì phản ánh được cải thiện”, bài báo nêu. “Tương tự như vậy, khi so sánh các mô hình suy luận khác nhau, việc sử dụng nhiều token hơn không phải lúc nào cũng liên quan đến độ chính xác cao hơn. Những phát hiện này thúc đẩy nhu cầu về các phương pháp mở rộng có mục đích và hiệu quả hơn về mặt chi phí”.

Chi phí không xác định: Có lẽ điều đáng lo ngại nhất đối với người dùng doanh nghiệp là việc lặp lại các truy vấn đến cùng một mô hình cho cùng một vấn đề có thể dẫn đến việc sử dụng mã thông báo rất khác nhau. Điều này có nghĩa là chi phí chạy truy vấn có thể dao động đáng kể, ngay cả khi mô hình luôn cung cấp câu trả lời đúng.

sự khác biệt trong kết quả đầu ra của mô hình — *Phương sai trong chiều dài phản hồi (các gai cho thấy phương sai nhỏ hơn) Tín dụng: arXiv*

Tiềm năng trong các cơ chế xác minh: Hiệu suất mở rộng liên tục được cải thiện trên tất cả các mô hình và điểm chuẩn khi được mô phỏng bằng “trình xác minh hoàn hảo” (sử dụng kết quả tốt nhất trong N).

Các mô hình thông thường đôi khi khớp với các mô hình lý luận: Bằng cách tăng đáng kể các lệnh gọi suy luận (lên đến 50 lần trong một số thí nghiệm), các mô hình thông thường như GPT-4o đôi khi có thể đạt đến mức hiệu suất của các mô hình lý luận chuyên dụng, đặc biệt là trên các tác vụ ít phức tạp hơn. Tuy nhiên, những lợi ích này giảm nhanh chóng trong các cài đặt cực kỳ phức tạp, cho thấy rằng việc mở rộng quy mô bằng vũ lực có giới hạn của nó.

Tỷ lệ thời gian suy luận GPT-4o — *Trong một số tác vụ, độ chính xác của GPT-4o tiếp tục được cải thiện với khả năng mở rộng song song và tuần tự. Tín dụng: arXiv*

Ý nghĩa đối với doanh nghiệp

Những phát hiện này có giá trị đáng kể đối với các nhà phát triển và doanh nghiệp áp dụng LLM. Vấn đề “chi phí không xác định” đặc biệt nghiêm trọng và khiến việc lập ngân sách trở nên khó khăn. Như các nhà nghiên cứu chỉ ra, “Lý tưởng nhất là các nhà phát triển và người dùng sẽ thích các mô hình có độ lệch chuẩn về mức sử dụng mã thông báo cho mỗi trường hợp thấp để có thể dự đoán chi phí”.

Besmira Nushi, giám đốc nghiên cứu chính cấp cao tại Microsoft Research, cho biết với VentureBeat: “Việc lập hồ sơ mà chúng tôi thực hiện trong [nghiên cứu] có thể hữu ích cho các nhà phát triển như một công cụ để chọn ra mô hình nào ít biến động hơn cho cùng một lời nhắc hoặc cho các lời nhắc khác nhau”. “Lý tưởng nhất là người ta sẽ muốn chọn một mô hình có độ lệch chuẩn thấp cho các đầu vào chính xác”.

*Các mô hình có đỉnh màu xanh lam ở bên trái luôn tạo ra cùng một số lượng mã thông báo tại nhiệm vụ đã cho. Tín dụng: arXiv*

Nghiên cứu này cũng cung cấp những hiểu biết sâu sắc về mối tương quan giữa độ chính xác của mô hình và độ dài phản hồi. Ví dụ, sơ đồ sau đây cho thấy các truy vấn toán học có độ dài mã thông báo trên ~11.000 có rất ít khả năng đúng và các thế hệ đó nên dừng lại tại thời điểm đó hoặc khởi động lại với một số phản hồi tuần tự. Tuy nhiên, Nushi chỉ ra rằng các mô hình cho phép các biện pháp giảm thiểu sau hoc này cũng có sự phân tách rõ ràng hơn giữa các mẫu đúng và không đúng.

“Cuối cùng, người xây dựng mô hình cũng có trách nhiệm suy nghĩ về việc giảm độ chính xác và chi phí không xác định, và chúng tôi mong đợi nhiều điều này sẽ xảy ra khi các phương pháp trở nên hoàn thiện hơn”, Nushi cho biết. “Bên cạnh chi phí không xác định, độ chính xác không xác định cũng áp dụng”.

Một phát hiện quan trọng khác là hiệu suất tăng lên đáng kể từ các trình xác minh hoàn hảo, điều này làm nổi bật một lĩnh vực quan trọng cho công việc trong tương lai: xây dựng các cơ chế xác minh mạnh mẽ và có thể áp dụng rộng rãi.

Nushi cho biết: “Việc có các trình xác minh mạnh hơn có thể có nhiều loại tác động khác nhau”, chẳng hạn như cải thiện các phương pháp đào tạo cơ bản để lập luận. “Nếu được sử dụng hiệu quả, chúng cũng có thể rút ngắn các dấu vết lập luận”.

Các trình xác minh mạnh cũng có thể trở thành một phần trung tâm của các giải pháp AI tác nhân doanh nghiệp. Nhiều bên liên quan trong doanh nghiệp đã có các trình xác minh như vậy, có thể cần được sử dụng lại cho các giải pháp tác nhân hơn, chẳng hạn như trình giải SAT, trình kiểm tra tính hợp lệ logistic, v.v.

“Câu hỏi cho tương lai là làm thế nào các kỹ thuật hiện có có thể kết hợp với các giao diện do AI điều khiển và ngôn ngữ nào kết nối cả hai”, Nushi cho biết. “Sự cần thiết của việc kết nối cả hai xuất phát từ thực tế là người dùng sẽ không phải lúc nào cũng xây dựng các truy vấn của họ theo cách chính thức, họ sẽ muốn sử dụng giao diện ngôn ngữ tự nhiên và mong đợi các giải pháp ở định dạng tương tự hoặc trong hành động cuối cùng (ví dụ: đề xuất lời mời họp)”.

Khi lý luận của AI sai: Nghiên cứu của Microsoft cho thấy nhiều mã thông báo hơn có thể có nghĩa là nhiều vấn đề hơn

Đưa các phương pháp mở rộng quy mô vào thử nghiệm

Tính toán nhiều hơn không phải lúc nào cũng là câu trả lời

Ý nghĩa đối với doanh nghiệp

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi