Thứ Hai, Tháng 6 16, 2025

Vấn đề tích hợp công cụ đang kìm hãm AI doanh nghiệp (và cách CoTools giải quyết vấn đề này)

Đối với các doanh nghiệp muốn xây dựng các tác nhân AI phức tạp, khả năng này có thể mở khóa các ứng dụng mạnh mẽ và thích ứng hơn mà không có những nhược điểm thường thấy của các kỹ thuật tích hợp công cụ hiện tại.

Thách thức trong việc trang bị các công cụ cho LLM

Trong khi các LLM hiện đại xuất sắc trong việc tạo văn bản, hiểu và thậm chí là lý luận phức tạp, họ cần tương tác với các tài nguyên và công cụ bên ngoài như cơ sở dữ liệu hoặc ứng dụng cho nhiều nhiệm vụ. Trang bị cho các LLM các công cụ bên ngoài — về cơ bản là API hoặc các hàm mà họ có thể gọi—là rất quan trọng để mở rộng khả năng của họ thành các ứng dụng thực tế, thực tế.

Tuy nhiên, các phương pháp hiện tại để cho phép sử dụng công cụ phải đối mặt với những đánh đổi đáng kể. Một cách tiếp cận phổ biến liên quan đến việc tinh chỉnh LLM trên các ví dụ về cách sử dụng công cụ. Mặc dù điều này có thể giúp mô hình thành thạo trong việc gọi các công cụ cụ thể được thấy trong quá trình đào tạo, nhưng nó thường hạn chế mô hình chỉ với những công cụ đó. Hơn nữa, bản thân quá trình tinh chỉnh đôi khi có thể tác động tiêu cực đến khả năng lập luận chung của LLM, chẳng hạn như Chuỗi suy nghĩ (CoT), có khả năng làm giảm sức mạnh cốt lõi của mô hình nền tảng.

Phương pháp tiếp cận thay thế dựa vào học tập trong ngữ cảnh (ICL), trong đó LLM được cung cấp các mô tả về các công cụ có sẵn và các ví dụ về cách sử dụng chúng trực tiếp trong lời nhắc. Phương pháp này cung cấp tính linh hoạt, cho phép mô hình có khả năng sử dụng các công cụ mà nó chưa từng thấy trước đây. Tuy nhiên, việc xây dựng các lời nhắc phức tạp này có thể rất cồng kềnh và hiệu quả của mô hình giảm đáng kể khi số lượng công cụ có sẵn tăng lên, khiến nó trở nên kém thực tế hơn đối với các tình huống có bộ công cụ động, lớn.

Như các nhà nghiên cứu lưu ý trong bài báo giới thiệu về Chain-of-Tools, một tác nhân LLM “phải có khả năng quản lý hiệu quả một lượng lớn công cụ và tận dụng tối đa những công cụ chưa từng thấy trong quá trình suy luận CoT, vì nhiều công cụ mới có thể xuất hiện hàng ngày trong các tình huống ứng dụng thực tế”.

Giới thiệu Chain-of-Tools (CoTools)

CoTools cung cấp một giải pháp thay thế hấp dẫn cho các phương pháp hiện có bằng cách khéo léo kết hợp các khía cạnh tinh chỉnh và hiểu biết ngữ nghĩa trong khi vẫn giữ nguyên LLM cốt lõi “đóng băng” – nghĩa là các trọng số ban đầu và khả năng lập luận mạnh mẽ của nó vẫn không bị ảnh hưởng. Thay vì tinh chỉnh toàn bộ mô hình, CoTools đào tạo các mô-đun nhẹ, chuyên biệt hoạt động cùng với LLM trong quá trình tạo ra nó.

Các nhà nghiên cứu viết: “Ý tưởng cốt lõi của CoTools là tận dụng khả năng biểu diễn ngữ nghĩa của các mô hình nền tảng đóng băng để xác định nơi gọi các công cụ và gọi những công cụ nào”.

Về bản chất, CoTools khai thác sự hiểu biết sâu sắc ẩn chứa trong các biểu diễn nội bộ của LLM, thường được gọi là “trạng thái ẩn”, được tính toán khi mô hình xử lý văn bản và tạo mã thông báo phản hồi.

Kiến trúc CoTools
Kiến trúc CoTools Tín dụng: arXiv

Khung CoTools bao gồm ba thành phần chính hoạt động tuần tự trong quá trình suy luận của LLM:

Thẩm phán công cụ: Khi LLM tạo mã thông báo phản hồi theo từng mã thông báo, Thẩm phán công cụ sẽ phân tích trạng thái ẩn liên quan đến mã thông báo tiếp theo tiềm năng và quyết định xem việc gọi công cụ có phù hợp tại thời điểm cụ thể đó trong chuỗi lý luận hay không.

Tool Retriever: Nếu Judge xác định cần một công cụ, Retriever sẽ chọn công cụ phù hợp nhất cho nhiệm vụ. Tool Retriever đã được đào tạo để tạo nhúng truy vấn và so sánh với các công cụ khả dụng. Điều này cho phép nó chọn hiệu quả công cụ có liên quan nhất về mặt ngữ nghĩa từ nhóm công cụ khả dụng, bao gồm các công cụ “chưa thấy” (tức là không phải là một phần của dữ liệu đào tạo cho các mô-đun CoTools).

Gọi công cụ: Sau khi chọn được công cụ tốt nhất, CoTools sử dụng lời nhắc ICL để minh họa việc điền các tham số của công cụ dựa trên ngữ cảnh. Việc sử dụng ICL có mục tiêu này tránh được tình trạng kém hiệu quả khi thêm hàng nghìn bản trình diễn vào lời nhắc để lựa chọn công cụ ban đầu. Sau khi công cụ được chọn được thực thi, kết quả của nó sẽ được chèn trở lại vào quá trình tạo phản hồi của LLM.

Bằng cách tách biệt việc ra quyết định (Thẩm phán) và lựa chọn (Truy xuất) dựa trên sự hiểu biết ngữ nghĩa khỏi việc điền tham số (Gọi qua ICL tập trung), CoTools đạt được hiệu quả ngay cả với các bộ công cụ khổng lồ trong khi vẫn bảo toàn các khả năng cốt lõi của LLM và cho phép sử dụng linh hoạt các công cụ mới. Tuy nhiên, vì CoTools yêu cầu quyền truy cập vào các trạng thái ẩn của mô hình, nên nó chỉ có thể được áp dụng cho các mô hình có trọng lượng mở như Llama và Mistral thay vì các mô hình riêng tư như GPT-4o và Claude.

CoTools trong hành động: Hiệu suất và tính linh hoạt

Công cụ CoTools
Ví dụ về CoTools đang hoạt động. Tín dụng: arXiv

Các nhà nghiên cứu đã đánh giá CoTools trên hai kịch bản ứng dụng riêng biệt: lý luận số học sử dụng các công cụ số học và trả lời câu hỏi dựa trên kiến ​​thức (KBQA), đòi hỏi phải truy xuất từ ​​cơ sở kiến ​​thức.

Trên các chuẩn số học như GSM8K-XL (sử dụng các phép toán cơ bản) và FuncQA (sử dụng các hàm phức tạp hơn), CoTools áp dụng cho LLaMA2-7B đạt hiệu suất tương đương với ChatGPT trên GSM8K-XL và vượt trội hơn một chút hoặc ngang bằng với một phương pháp học công cụ khác, ToolkenGPT, trên các biến thể FuncQA. Kết quả cho thấy CoTools nâng cao hiệu quả khả năng của mô hình nền tảng cơ bản.

Đối với các tác vụ KBQA, được thử nghiệm trên tập dữ liệu KAMEL và tập dữ liệu SimpleToolQuestions (STQuestions) mới xây dựng có nhóm công cụ rất lớn (1836 công cụ, bao gồm 837 công cụ không thấy trong tập kiểm tra), CoTools đã chứng minh độ chính xác lựa chọn công cụ vượt trội. Nó đặc biệt xuất sắc trong các tình huống có số lượng công cụ lớn và khi xử lý các công cụ không thấy, tận dụng thông tin mô tả để truy xuất hiệu quả khi các phương pháp chỉ dựa vào biểu diễn công cụ đã đào tạo bị chậm lại. Các thí nghiệm cũng chỉ ra rằng CoTools vẫn duy trì hiệu suất mạnh mẽ mặc dù dữ liệu đào tạo chất lượng thấp hơn.

Ý nghĩa đối với doanh nghiệp

Chain-of-Tools đưa ra một hướng đi đầy hứa hẹn để xây dựng các tác nhân được hỗ trợ bởi LLM thực tế và mạnh mẽ hơn trong doanh nghiệp. Điều này đặc biệt hữu ích vì các tiêu chuẩn mới như Giao thức bối cảnh mô hình (MCP) cho phép các nhà phát triển tích hợp các công cụ và tài nguyên bên ngoài dễ dàng vào ứng dụng của họ. Các doanh nghiệp có khả năng triển khai các tác nhân thích ứng với các API và chức năng bên trong hoặc bên ngoài mới với chi phí đào tạo lại tối thiểu.

Sự phụ thuộc của khuôn khổ vào hiểu biết ngữ nghĩa thông qua các trạng thái ẩn cho phép lựa chọn công cụ chính xác và sắc thái, có thể tạo ra trợ lý AI đáng tin cậy hơn trong các tác vụ đòi hỏi tương tác với nhiều nguồn thông tin và hệ thống khác nhau.

“CoTools khám phá cách trang bị cho LLM những công cụ mới to lớn theo cách đơn giản”, Mengsong Wu, tác giả chính của bài báo CoTools và nhà nghiên cứu máy học tại Đại học Soochow, nói với VentureBeat. “Nó có thể được sử dụng để xây dựng một tác nhân AI cá nhân với MCP và thực hiện lý luận phức tạp với các công cụ khoa học”.

Tuy nhiên, Wu cũng lưu ý rằng cho đến nay họ chỉ tiến hành công việc thăm dò sơ bộ. Wu cho biết: “Để áp dụng nó vào môi trường thực tế, bạn vẫn cần tìm được sự cân bằng giữa chi phí tinh chỉnh và hiệu quả của việc gọi công cụ tổng quát”.

Các nhà nghiên cứu đã công bố mã để đào tạo các mô-đun Judge và Retriever trên GitHub .

Các nhà nghiên cứu viết: “Chúng tôi tin rằng khuôn khổ tác nhân Học công cụ lý tưởng của chúng tôi dựa trên LLM đông lạnh với phương pháp hiện thực hóa thực tế CoTools có thể hữu ích trong các ứng dụng thực tế và thậm chí thúc đẩy sự phát triển hơn nữa của Học công cụ”.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »