Chủ Nhật, Tháng 8 10, 2025

Vượt ra ngoài ARC-AGI: GAIA và tìm kiếm chuẩn mực tình báo thực sự

Cộng đồng AI tạo sinh từ lâu đã dựa vào các chuẩn mực như MMLU (Massive Multitask Language Understanding) để đánh giá khả năng của mô hình thông qua các câu hỏi trắc nghiệm trên nhiều lĩnh vực học thuật. Định dạng này cho phép so sánh trực tiếp, nhưng không thực sự nắm bắt được khả năng thông minh.

Ví dụ, cả Claude 3.5 Sonnet và GPT-4.5 đều đạt điểm tương tự nhau trong tiêu chuẩn này. Trên lý thuyết, điều này cho thấy khả năng tương đương. Tuy nhiên, những người làm việc với các mô hình này biết rằng có sự khác biệt đáng kể trong hiệu suất thực tế của chúng.

Đo lường “trí thông minh” trong AI có nghĩa là gì?

Sau khi phát hành chuẩn ARC-AGI mới — một bài kiểm tra được thiết kế để thúc đẩy các mô hình hướng tới lý luận chung và giải quyết vấn đề sáng tạo — đã có cuộc tranh luận mới về ý nghĩa của việc đo lường “trí thông minh” trong AI. Mặc dù chưa phải ai cũng đã thử nghiệm chuẩn ARC-AGI, nhưng ngành công nghiệp này hoan nghênh nỗ lực này và các nỗ lực khác nhằm phát triển các khuôn khổ thử nghiệm. Mỗi chuẩn đều có giá trị riêng và ARC-AGI là một bước tiến đầy hứa hẹn trong cuộc trò chuyện rộng lớn hơn đó. 

Một phát triển đáng chú ý gần đây khác trong đánh giá AI là ‘ Humanity’s Last Exam ‘, một chuẩn mực toàn diện bao gồm 3.000 câu hỏi nhiều bước được bình duyệt ngang hàng trên nhiều lĩnh vực khác nhau. Mặc dù bài kiểm tra này đại diện cho một nỗ lực đầy tham vọng nhằm thách thức các hệ thống AI ở cấp độ lý luận chuyên gia, nhưng kết quả ban đầu cho thấy tiến triển nhanh chóng — với OpenAI được báo cáo là đạt được điểm 26,6% trong vòng một tháng kể từ khi phát hành. Tuy nhiên, giống như các chuẩn mực truyền thống khác, nó chủ yếu đánh giá kiến ​​thức và lý luận một cách riêng biệt, mà không kiểm tra các khả năng thực tế, sử dụng công cụ ngày càng quan trọng đối với các ứng dụng AI trong thế giới thực.

Trong một ví dụ, nhiều mô hình tiên tiến không đếm đúng số chữ “r” trong từ strawberry. Trong một ví dụ khác, chúng xác định sai 3,8 là nhỏ hơn 3,1111. Những lỗi như thế này — trong các nhiệm vụ mà ngay cả trẻ nhỏ hoặc máy tính cơ bản cũng có thể giải quyết — cho thấy sự không phù hợp giữa tiến trình dựa trên chuẩn mực và tính mạnh mẽ trong thế giới thực, nhắc nhở chúng ta rằng trí thông minh không chỉ là vượt qua kỳ thi mà còn là điều hướng logic hàng ngày một cách đáng tin cậy.

Tiêu chuẩn mới để đo lường khả năng AI

Khi các mô hình phát triển hơn, các chuẩn mực truyền thống này đã bộc lộ những hạn chế của chúng — GPT-4 với các công cụ chỉ đạt được khoảng 15% trong các tác vụ phức tạp hơn, thực tế hơn trong chuẩn mực GAIA , mặc dù đạt điểm ấn tượng trong các bài kiểm tra trắc nghiệm.

Sự không liên quan giữa hiệu suất chuẩn và khả năng thực tế ngày càng trở nên có vấn đề khi các hệ thống AI chuyển từ môi trường nghiên cứu sang ứng dụng kinh doanh. Các chuẩn mực truyền thống kiểm tra khả năng nhớ lại kiến ​​thức nhưng bỏ qua các khía cạnh quan trọng của trí thông minh: Khả năng thu thập thông tin, thực thi mã, phân tích dữ liệu và tổng hợp các giải pháp trên nhiều miền.

GAIA là sự thay đổi cần thiết trong phương pháp đánh giá AI. Được tạo ra thông qua sự hợp tác giữa các nhóm Meta-FAIR, Meta-GenAI, HuggingFace và AutoGPT, chuẩn mực này bao gồm 466 câu hỏi được thiết kế cẩn thận ở ba mức độ khó. Những câu hỏi này kiểm tra khả năng duyệt web, hiểu biết đa phương thức, thực thi mã, xử lý tệp và suy luận phức tạp — những khả năng thiết yếu cho các ứng dụng AI trong thế giới thực.

Câu hỏi Cấp độ 1 yêu cầu khoảng 5 bước và một công cụ để con người giải quyết. Câu hỏi Cấp độ 2 yêu cầu 5 đến 10 bước và nhiều công cụ, trong khi câu hỏi Cấp độ 3 có thể yêu cầu tới 50 bước riêng biệt và bất kỳ số lượng công cụ nào. Cấu trúc này phản ánh sự phức tạp thực tế của các vấn đề kinh doanh, nơi các giải pháp hiếm khi đến từ một hành động hoặc công cụ duy nhất.

Bằng cách ưu tiên tính linh hoạt hơn tính phức tạp, một mô hình AI đã đạt được độ chính xác 75% trên GAIA — vượt trội hơn các gã khổng lồ trong ngành là Magnetic-1 của Microsoft (38%) và Langfun Agent của Google (49%). Thành công của họ bắt nguồn từ việc sử dụng kết hợp các mô hình chuyên biệt để hiểu và lý luận về âm thanh-hình ảnh, với Sonnet 3.5 của Anthropic là mô hình chính.

Sự tiến hóa này trong đánh giá AI phản ánh sự thay đổi lớn hơn trong ngành: Chúng ta đang chuyển từ các ứng dụng SaaS độc lập sang các tác nhân AI có thể điều phối nhiều công cụ và quy trình làm việc. Khi các doanh nghiệp ngày càng dựa vào các hệ thống AI để xử lý các tác vụ phức tạp, nhiều bước, các điểm chuẩn như GAIA cung cấp thước đo năng lực có ý nghĩa hơn so với các bài kiểm tra trắc nghiệm truyền thống.

Tương lai của việc đánh giá AI không nằm ở các bài kiểm tra kiến ​​thức riêng lẻ mà nằm ở các đánh giá toàn diện về khả năng giải quyết vấn đề. GAIA đặt ra một tiêu chuẩn mới để đo lường khả năng AI — tiêu chuẩn phản ánh tốt hơn những thách thức và cơ hội của việc triển khai AI trong thế giới thực.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Apple Mất Một Lãnh Đạo AI Quan Trọng Vào Tay Meta

Apple đang phải đối mặt với một vết thương...

Phá vỡ nút thắt lưu trữ của AI và tăng cường suy luận ở biên

Trong sự kiện Transform 2025 của VentureBeat , Greg Matson, giám...

OpenAI Từ Chối Việc Giao Dịch Cổ Phiếu Token Hoá Của Robinhood

Robinhood đã bắt đầu cung cấp cổ phiếu token...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »