Mỗi bản phát hành mô hình AI đều bao gồm các biểu đồ quảng cáo cách nó vượt trội hơn các đối thủ cạnh tranh trong bài kiểm tra chuẩn mực này hoặc ma trận đánh giá kia.
Tuy nhiên, các chuẩn mực này thường kiểm tra khả năng chung. Đối với các tổ chức muốn sử dụng các mô hình và tác nhân dựa trên mô hình ngôn ngữ lớn, sẽ khó đánh giá mức độ tác nhân hoặc mô hình thực sự hiểu được nhu cầu cụ thể của họ.
Sumuk Shashidhar, một thành viên của nhóm nghiên cứu đánh giá tại Hugging Face, đã công bố Yourbench trên X. Tính năng này cung cấp “chuẩn mực tùy chỉnh và tạo dữ liệu tổng hợp từ BẤT KỲ tài liệu nào của bạn. Đây là một bước tiến lớn hướng tới việc cải thiện cách thức hoạt động của đánh giá mô hình”.
Ông nói thêm rằng Hugging Face biết rằng “đối với nhiều trường hợp sử dụng, điều thực sự quan trọng là mô hình thực hiện nhiệm vụ cụ thể của bạn tốt như thế nào. Yourbench cho phép bạn đánh giá các mô hình dựa trên những gì quan trọng với bạn”.
Tạo đánh giá tùy chỉnh
Hugging Face cho biết trong một bài báo rằng Yourbench hoạt động bằng cách sao chép các tập hợp con của chuẩn mực Hiểu ngôn ngữ đa nhiệm hàng loạt (MMLU) “bằng cách sử dụng văn bản nguồn tối thiểu, đạt được điều này với tổng chi phí suy luận dưới 15 đô la trong khi vẫn bảo toàn hoàn hảo thứ hạng hiệu suất mô hình tương đối”.
Các tổ chức cần xử lý trước tài liệu của mình trước khi Yourbench có thể hoạt động. Điều này bao gồm ba giai đoạn:
- Nhập tài liệu để “chuẩn hóa” định dạng tệp.
- Phân đoạn ngữ nghĩa để chia nhỏ tài liệu nhằm đáp ứng giới hạn cửa sổ ngữ cảnh và tập trung sự chú ý của mô hình.
- Tóm tắt tài liệu
Tiếp theo là quá trình tạo câu hỏi và trả lời, tạo ra các câu hỏi từ thông tin trên tài liệu. Đây là nơi người dùng đưa LLM đã chọn vào để xem LLM nào trả lời tốt nhất các câu hỏi.
Hugging Face đã thử nghiệm Yourbench bằng các mô hình DeepSeek V3 và R1, các mô hình Qwen của Alibaba bao gồm mô hình lý luận Qwen QwQ, Mistral Large 2411 và Mistral 3.1 Small, Llama 3.1 và Llama 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite và Gemma 3, GPT-4o, GPT-4o-mini và o3 mini, và Claude 3.7 Sonnet và Claude 3.5 Haiku.
Shashidhar cho biết Hugging Face cũng cung cấp phân tích chi phí cho các mô hình và nhận thấy rằng Qwen và Gemini 2.0 Flash “mang lại giá trị to lớn với chi phí rất rất thấp”.
Tính toán giới hạn
Tuy nhiên, việc tạo ra các chuẩn mực LLM tùy chỉnh dựa trên các tài liệu của tổ chức phải trả giá. Yourbench cần rất nhiều sức mạnh tính toán để hoạt động. Shashidhar cho biết trên X rằng công ty đang “bổ sung năng lực” nhanh nhất có thể.
Hugging Face chạy một số GPU và hợp tác với các công ty như Google để sử dụng dịch vụ đám mây của họ cho các tác vụ suy luận. VentureBeat đã liên hệ với Hugging Face về cách sử dụng tính toán của Yourbench.
Đánh giá chuẩn không hoàn hảo
Điểm chuẩn và các phương pháp đánh giá khác giúp người dùng biết được mô hình hoạt động tốt như thế nào, nhưng chúng không thể hiện hoàn hảo cách các mô hình hoạt động hàng ngày.
Một số người thậm chí còn lên tiếng hoài nghi rằng các bài kiểm tra chuẩn cho thấy những hạn chế của các mô hình và có thể dẫn đến kết luận sai lệch về tính an toàn và hiệu suất của chúng. Một nghiên cứu cũng cảnh báo rằng các tác nhân chuẩn có thể “gây hiểu lầm”.
Tuy nhiên, các doanh nghiệp không thể tránh khỏi việc đánh giá các mô hình hiện nay khi có nhiều lựa chọn trên thị trường và các nhà lãnh đạo công nghệ biện minh cho chi phí tăng cao khi sử dụng các mô hình AI. Điều này dẫn đến các phương pháp khác nhau để kiểm tra hiệu suất và độ tin cậy của mô hình.
Google DeepMind giới thiệu FACTS Grounding , kiểm tra khả năng tạo ra phản hồi chính xác về mặt thực tế của mô hình dựa trên thông tin từ tài liệu. Một số nhà nghiên cứu của Đại học Yale và Thanh Hoa đã phát triển các chuẩn mực mã tự gọi để hướng dẫn các doanh nghiệp mà LLM mã hóa phù hợp với họ.