LangChain chứng minh AI agent chưa đạt “trình người” vì dễ quá tải khi dùng nhiều công cụ

Ngay khi các tác tử AI (AI agent) thể hiện tiềm năng, nhiều tổ chức phải cân nhắc: Liệu chỉ một tác tử là đủ, hay cần đầu tư xây dựng mạng lưới tác tử đa chiều (multi agent) trong doanh nghiệp.

LangChain, công ty chuyên về khung điều phối (orchestration framework), vừa cố gắng tiến gần hơn đến câu trả lời cho vấn đề này. Họ tiến hành loạt thí nghiệm với một tác tử AI duy nhất và nhận thấy tác tử đó có giới hạn về bối cảnh (context) lẫn số lượng công cụ trước khi hiệu suất bắt đầu suy giảm. Kết quả có thể giúp thiết kế kiến trúc phù hợp để duy trì hiệu năng cho các tác tử AI (agent) và hệ thống đa tác tử (multi agent systems) trong tương lai.

Trong bài blog, LangChain mô tả chi tiết cách họ thử nghiệm một tác tử ReAct, sau đó đo lường hiệu suất. Mục tiêu chính của LangChain:“Ở ngưỡng nào thì một tác tử ReAct bị quá tải bởi nhiều chỉ dẫn (instructions) cùng công cụ, dẫn đến hiệu suất giảm?”

LangChain chọn ReAct vì đây là “một trong những kiến trúc agent cơ bản nhất.”

Dù đánh giá hiệu suất agent thường dễ dẫn đến nhiều hiểu lầm, LangChain giới hạn thử nghiệm trong hai tác vụ định lượng rõ: trả lời câu hỏi và sắp xếp lịch.

 “Đã có nhiều phép đo về dùng công cụ (tool use) và gọi công cụ (tool calling). Nhưng ở thí nghiệm này, chúng tôi muốn đánh giá một tác tử thực tế mà chúng tôi đang dùng,” LangChain giải thích. “Tác tử này là trợ lý email nội bộ, phụ trách hai lĩnh vực chính: trả lời hoặc sắp xếp yêu cầu họp, và hỗ trợ khách hàng về các câu hỏi.”

Thông số thí nghiệm của LangChain

LangChain chủ yếu sử dụng các tác tử ReAct dựng sẵn qua nền tảng LangGraph. Các tác tử này có thể gọi công cụ (tool calling) tới các mô hình ngôn ngữ lớn (LLMs), và đó là đối tượng được đo trong thử nghiệm. Danh sách LLM gồm Claude 3.5 sonnet (Anthropic), Llama 3.3 70B (Meta), cùng ba mô hình của OpenAI là GPT 4o, o1 và o3 mini.

Công ty chia quy trình thử nghiệm để đo khả năng của “trợ lý email” (email assistant) trong hai nhiệm vụ:

1. Hỗ trợ khách hàng (customer support)

Tác tử nhận email từ khách, rồi phản hồi. LangChain đầu tiên kiểm tra “quỹ đạo gọi công cụ” (tool calling trajectory): Nếu tác tử dùng đúng công cụ đúng thứ tự, xem như đạt. Sau đó, nhóm yêu cầu trợ lý phản hồi email và dùng một LLM khác chấm điểm đáp án.

2. Sắp xếp lịch (scheduling)

Tác tử phải tuân thủ mọi chỉ dẫn sẵn có (ví dụ: chỉ sắp xếp cho một nhóm vào khung giờ cụ thể). Tác tử cần nhớ rõ yêu cầu để thực hiện động tác đúng.

Tác tử “quá tải” khi nhận quá nhiều nhiệm vụ

Sau khi xác định xong tham số, LangChain tiến hành “tăng áp lực” (stress test) lên trợ lý email. Họ tung ra 30 tác vụ cho lĩnh vực sắp xếp lịch và 30 tác vụ cho hỗ trợ khách hàng, chạy ba lần (tổng 90 lượt). Tiếp đó, nhóm tạo riêng một agent cho lịch và một agent cho hỗ trợ khách để đánh giá rõ ràng hơn.

Sau đó, nhóm thêm nhiều lĩnh vực khác (nhân sự, kiểm tra chất lượng, pháp lý, tuân thủ…) vào cùng một tác tử, khiến tác tử có thêm nhiệm vụ. Khi chỉ một tác tử duy nhất phải xử lý quá nhiều chỉ dẫn hay công cụ, nó thường quên không gọi công cụ hoặc không trả lời đúng. Thậm chí có trường hợp tác tử quên sử dụng công cụ “gửi email” nên thất bại ở mọi lượt thử.

Hiệu suất suy giảm khi thêm nhiều chỉ dẫn

Ở phần sắp xếp lịch, LangChain nhận thấy:

– Lịch dùng GPT 4o “tệ hơn Claude 3.5 sonnet, o1 và o3 trên nhiều mức bối cảnh” và hiệu suất giảm mạnh khi bối cảnh lớn. Khi số lĩnh vực tăng tới bảy, hiệu suất GPT 4o chỉ còn 2%.

– Llama 3.3 70B quên hẳn việc gọi send_email, dẫn đến thất bại mọi trường hợp.

– Claude 3.5 sonnet, o1 và o3 mini vẫn nhớ gọi công cụ, nhưng Claude 3.5 sonnet hoạt động kém hơn hai mô hình OpenAI. Riêng o3 mini cũng giảm hiệu suất khi có thêm nhiều lĩnh vực không liên quan.

Với tác vụ hỗ trợ khách hàng, Claude 3.5 mini ngang ngửa o3 mini và o1, ít suy giảm hơn khi số lĩnh vực tăng. Nhưng khi mở rộng cửa sổ bối cảnh, Claude lại tụt hạng. GPT 4o tiếp tục đứng cuối.

“Chúng tôi thấy khi bối cảnh lớn lên, khả năng tuân thủ chỉ dẫn giảm. Một số nhiệm vụ yêu cầu quy tắc cụ thể (vd: không thực hiện thao tác cho khách hàng EU), và nếu tác tử quên thì thất bại,” LangChain cho biết.

Hướng tới kiến trúc đa tác tử

LangChain đang tìm cách đánh giá mô hình đa tác tử (multi agent) bằng chính phương pháp chồng chất nhiều lĩnh vực. Công ty vốn đã quan tâm đến hiệu suất của agent, từng giới thiệu ý tưởng “ambient agents” — các tác tử chạy nền, kích hoạt bởi sự kiện cụ thể. Kết quả lần này có thể giúp xác định giải pháp tối ưu để duy trì hiệu năng cho agent.

Tóm lại, khi phải gánh quá nhiều lĩnh vực và công cụ, một tác tử đơn lẻ dễ “quên” hay bỏ sót chỉ dẫn. Việc chuyển sang kiến trúc đa tác tử, hoặc chia nhỏ chức năng, có thể là hướng tiếp cận phù hợp để đảm bảo độ chính xác và hiệu quả trong môi trường thực tế.

LangChain chứng minh AI agent chưa đạt “trình người” vì dễ quá tải khi dùng nhiều công cụ

Thông số thí nghiệm của LangChain

Tác tử “quá tải” khi nhận quá nhiều nhiệm vụ

Hiệu suất suy giảm khi thêm nhiều chỉ dẫn

Hướng tới kiến trúc đa tác tử

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi