Phiên bản mới được xây dựng trực tiếp trên Mistral Small 3.1, nhằm mục đích cải thiện các hành vi cụ thể như hướng dẫn sau, tính ổn định của đầu ra và tính mạnh mẽ của việc gọi hàm. Mặc dù các chi tiết kiến trúc tổng thể vẫn không thay đổi, bản cập nhật giới thiệu các cải tiến có mục tiêu ảnh hưởng đến cả đánh giá nội bộ và chuẩn mực công khai.
Theo Mistral AI, Small 3.2 có khả năng tuân thủ các hướng dẫn chính xác hơn và giảm khả năng tạo ra các thế hệ vô hạn hoặc lặp lại — một vấn đề thường thấy ở các phiên bản trước khi xử lý các lời nhắc dài hoặc mơ hồ.
Tương tự như vậy, mẫu gọi hàm đã được nâng cấp để hỗ trợ các tình huống sử dụng công cụ đáng tin cậy hơn, đặc biệt là trong các khuôn khổ như vLLM.
Đồng thời, nó có thể chạy trên thiết lập với một GPU Nvidia A100/H100 80GB, mở rộng đáng kể các lựa chọn cho các doanh nghiệp có nguồn lực tính toán và/hoặc ngân sách eo hẹp.
Một mô hình được cập nhật chỉ sau 3 tháng
Mistral Small 3.1 được công bố vào tháng 3 năm 2025 với tư cách là bản phát hành mở hàng đầu trong phạm vi tham số 24B. Nó cung cấp đầy đủ các khả năng đa phương thức, hiểu biết đa ngôn ngữ và xử lý ngữ cảnh dài lên đến 128K mã thông báo.
Mô hình này được định vị rõ ràng so với các đối thủ độc quyền như GPT-4o Mini, Claude 3.5 Haiku và Gemma 3-it — và theo Mistral, nó vượt trội hơn chúng trong nhiều tác vụ.
Small 3.1 cũng nhấn mạnh vào việc triển khai hiệu quả, với tuyên bố chạy suy luận ở tốc độ 150 mã thông báo mỗi giây và hỗ trợ sử dụng trên thiết bị có RAM 32 GB.
Phiên bản đó đi kèm với cả điểm kiểm tra cơ bản và hướng dẫn, mang lại sự linh hoạt để tinh chỉnh trên nhiều lĩnh vực như pháp lý, y tế và kỹ thuật.
Ngược lại, Small 3.2 tập trung vào cải tiến phẫu thuật đối với hành vi và độ tin cậy. Nó không nhằm mục đích giới thiệu các khả năng mới hoặc thay đổi kiến trúc. Thay vào đó, nó hoạt động như một bản phát hành bảo trì: dọn dẹp các trường hợp ngoại lệ trong quá trình tạo đầu ra, thắt chặt tuân thủ hướng dẫn và tinh chỉnh các tương tác nhắc nhở của hệ thống.
Small 3.2 so với Small 3.1: có gì thay đổi?
Các điểm chuẩn theo hướng dẫn cho thấy một sự cải thiện nhỏ nhưng có thể đo lường được. Độ chính xác bên trong của Mistral tăng từ 82,75% trong Small 3.1 lên 84,78% trong Small 3.2.

Tương tự như vậy, hiệu suất trên các tập dữ liệu bên ngoài như Wildbench v2 và Arena Hard v2 đã được cải thiện đáng kể—Wildbench tăng gần 10 điểm phần trăm, trong khi Arena Hard tăng gấp đôi, từ 19,56% lên 43,10%.
Các số liệu nội bộ cũng cho thấy sự lặp lại đầu ra giảm. Tỷ lệ thế hệ vô hạn đã giảm từ 2,11% trong Small 3.1 xuống 1,29% trong Small 3.2 — giảm gần gấp 2 lần. Điều này làm cho mô hình đáng tin cậy hơn đối với các nhà phát triển xây dựng các ứng dụng yêu cầu phản hồi nhất quán, có giới hạn.
Hiệu suất trên các chuẩn mực văn bản và mã hóa thể hiện một bức tranh sắc thái hơn. Small 3.2 cho thấy mức tăng trên HumanEval Plus (88,99% lên 92,90%), MBPP Pass@5 (74,63% lên 78,33%) và SimpleQA. Nó cũng cải thiện khiêm tốn kết quả MMLU Pro và MATH.
Phiên bản mới được xây dựng trực tiếp trên Mistral Small 3.1, nhằm mục đích cải thiện các hành vi cụ thể như hướng dẫn sau, tính ổn định của đầu ra và tính mạnh mẽ của việc gọi hàm. Mặc dù các chi tiết kiến trúc tổng thể vẫn không thay đổi, bản cập nhật giới thiệu các cải tiến có mục tiêu ảnh hưởng đến cả đánh giá nội bộ và chuẩn mực công khai.
Theo Mistral AI, Small 3.2 có khả năng tuân thủ các hướng dẫn chính xác hơn và giảm khả năng tạo ra các thế hệ vô hạn hoặc lặp lại — một vấn đề thường thấy ở các phiên bản trước khi xử lý các lời nhắc dài hoặc mơ hồ.
Tương tự như vậy, mẫu gọi hàm đã được nâng cấp để hỗ trợ các tình huống sử dụng công cụ đáng tin cậy hơn, đặc biệt là trong các khuôn khổ như vLLM.
Đồng thời, nó có thể chạy trên thiết lập với một GPU Nvidia A100/H100 80GB, mở rộng đáng kể các lựa chọn cho các doanh nghiệp có nguồn lực tính toán và/hoặc ngân sách eo hẹp.
Một mô hình được cập nhật chỉ sau 3 tháng
Mistral Small 3.1 được công bố vào tháng 3 năm 2025 với tư cách là bản phát hành mở hàng đầu trong phạm vi tham số 24B. Nó cung cấp đầy đủ các khả năng đa phương thức, hiểu biết đa ngôn ngữ và xử lý ngữ cảnh dài lên đến 128K mã thông báo.
Mô hình này được định vị rõ ràng so với các đối thủ độc quyền như GPT-4o Mini, Claude 3.5 Haiku và Gemma 3-it — và theo Mistral, nó vượt trội hơn chúng trong nhiều tác vụ.
Small 3.1 cũng nhấn mạnh vào việc triển khai hiệu quả, với tuyên bố chạy suy luận ở tốc độ 150 mã thông báo mỗi giây và hỗ trợ sử dụng trên thiết bị có RAM 32 GB.
Phiên bản đó đi kèm với cả điểm kiểm tra cơ bản và hướng dẫn, mang lại sự linh hoạt để tinh chỉnh trên nhiều lĩnh vực như pháp lý, y tế và kỹ thuật.
Ngược lại, Small 3.2 tập trung vào cải tiến phẫu thuật đối với hành vi và độ tin cậy. Nó không nhằm mục đích giới thiệu các khả năng mới hoặc thay đổi kiến trúc. Thay vào đó, nó hoạt động như một bản phát hành bảo trì: dọn dẹp các trường hợp ngoại lệ trong quá trình tạo đầu ra, thắt chặt tuân thủ hướng dẫn và tinh chỉnh các tương tác nhắc nhở của hệ thống.
Small 3.2 so với Small 3.1: có gì thay đổi?
Các điểm chuẩn theo hướng dẫn cho thấy một sự cải thiện nhỏ nhưng có thể đo lường được. Độ chính xác bên trong của Mistral tăng từ 82,75% trong Small 3.1 lên 84,78% trong Small 3.2.

Tương tự như vậy, hiệu suất trên các tập dữ liệu bên ngoài như Wildbench v2 và Arena Hard v2 đã được cải thiện đáng kể—Wildbench tăng gần 10 điểm phần trăm, trong khi Arena Hard tăng gấp đôi, từ 19,56% lên 43,10%.
Các số liệu nội bộ cũng cho thấy sự lặp lại đầu ra giảm. Tỷ lệ thế hệ vô hạn đã giảm từ 2,11% trong Small 3.1 xuống 1,29% trong Small 3.2 — giảm gần gấp 2 lần. Điều này làm cho mô hình đáng tin cậy hơn đối với các nhà phát triển xây dựng các ứng dụng yêu cầu phản hồi nhất quán, có giới hạn.
Hiệu suất trên các chuẩn mực văn bản và mã hóa thể hiện một bức tranh sắc thái hơn. Small 3.2 cho thấy mức tăng trên HumanEval Plus (88,99% lên 92,90%), MBPP Pass@5 (74,63% lên 78,33%) và SimpleQA. Nó cũng cải thiện khiêm tốn kết quả MMLU Pro và MATH.

Tiêu chuẩn thị lực vẫn chủ yếu là nhất quán, với những biến động nhỏ. ChartQA và DocVQA chứng kiến mức tăng nhỏ, trong khi AI2D và Mathvista giảm chưa đến hai phần trăm. Hiệu suất thị lực trung bình giảm nhẹ từ 81,39% trong Small 3.1 xuống 81,00% trong Small 3.2.

Điều này phù hợp với ý định đã nêu của Mistral: Small 3.2 không phải là một bản đại tu mô hình mà là một bản tinh chỉnh. Do đó, hầu hết các điểm chuẩn đều nằm trong phạm vi phương sai dự kiến và một số hồi quy dường như là sự đánh đổi để có những cải tiến mục tiêu ở những nơi khác.
Tuy nhiên, như người dùng AI có sức ảnh hưởng và là người có sức ảnh hưởng @chatgpt21 đã đăng trên X : “Nó tệ hơn trên MMLU,” có nghĩa là chuẩn mực Hiểu ngôn ngữ đa nhiệm vụ hàng loạt, một bài kiểm tra đa ngành với 57 câu hỏi được thiết kế để đánh giá hiệu suất LLM rộng rãi trên nhiều lĩnh vực. Thật vậy, Small 3.2 đạt 80,50%, thấp hơn một chút so với 80,62% của Small 3.1.
Giấy phép nguồn mở sẽ hấp dẫn hơn đối với người dùng có ý thức về chi phí và tập trung vào tùy chỉnh
Cả Small 3.1 và 3.2 đều có sẵn theo giấy phép Apache 2.0 và có thể truy cập thông qua kho lưu trữ chia sẻ mã AI phổ biến Hugging Face (là một công ty khởi nghiệp có trụ sở tại Pháp và NYC).
Small 3.2 được hỗ trợ bởi các nền tảng như vLLM và Transformers và yêu cầu khoảng 55 GB RAM GPU để chạy ở độ chính xác bf16 hoặc fp16.
Đối với các nhà phát triển muốn xây dựng hoặc cung cấp ứng dụng, lời nhắc hệ thống và ví dụ suy luận được cung cấp trong kho lưu trữ mô hình.
Trong khi Mistral Small 3.1 đã được tích hợp vào các nền tảng như Google Cloud Vertex AI và được lên lịch triển khai trên NVIDIA NIM và Microsoft Azure, thì Small 3.2 hiện chỉ giới hạn ở khả năng truy cập tự phục vụ thông qua Hugging Face và triển khai trực tiếp.
Những điều doanh nghiệp cần biết khi cân nhắc Mistral Small 3.2 cho các trường hợp sử dụng của họ
Mistral Small 3.2 có thể không thay đổi vị thế cạnh tranh trong không gian mô hình trọng lượng mở, nhưng nó thể hiện cam kết của Mistral AI đối với việc tinh chỉnh mô hình theo từng bước.
Với những cải tiến đáng chú ý về độ tin cậy và xử lý tác vụ — đặc biệt là về độ chính xác của hướng dẫn và cách sử dụng công cụ — Small 3.2 mang đến trải nghiệm người dùng rõ ràng hơn cho các nhà phát triển và doanh nghiệp xây dựng trên hệ sinh thái Mistral.
Việc sản phẩm này được một công ty khởi nghiệp của Pháp thực hiện và tuân thủ các quy tắc và quy định của EU như GDPR và Đạo luật AI của EU cũng khiến nó trở nên hấp dẫn đối với các doanh nghiệp hoạt động tại khu vực đó.
Tuy nhiên, đối với những người tìm kiếm bước nhảy vọt lớn nhất về hiệu suất chuẩn, Small 3.1 vẫn là điểm tham chiếu—đặc biệt là trong một số trường hợp, chẳng hạn như MMLU, Small 3.2 không vượt trội hơn phiên bản tiền nhiệm của nó. Điều đó khiến bản cập nhật trở thành tùy chọn tập trung vào tính ổn định hơn là nâng cấp thuần túy, tùy thuộc vào trường hợp sử dụng.