Thứ Bảy, Tháng 8 9, 2025

“Personalized, unrestricted” AI lab Nous Research ra mắt mô hình suy luận có thể bật tắt: DeepHermes 3

Các mô hình AI reasoning (suy luận) sinh chuỗi tư duy (chain of thought, CoT) bằng văn bản và tự đánh giá phân tích nhằm phát hiện lỗi trước khi đưa ra câu trả lời đang rất được quan tâm nhờ DeepSeek và chuỗi “o” của OpenAI.

Thật ngạc nhiên khi cách tiếp cận mô hình reasoning lan nhanh khắp ngành AI, và tuần này có thêm một mô hình mới từ Nous Research, một nhóm kỹ sư bí ẩn nhưng được đánh giá cao về nguyên tắc hoạt động. Kể từ khi ra mắt ở New York năm 2023, Nous Research luôn hướng đến việc tạo “mô hình AI cá nhân hóa, không giới hạn,” thường bằng cách tinh chỉnh hoặc huấn luyện lại các mô hình nguồn mở của Meta như Llama hoặc từ công ty Mistral của Pháp.

Theo bài đăng trên tài khoản X của Nous Research và kênh Discord của công ty, mô hình reasoning mới này có tên gọi “DeepHermes 3 Preview.” Đây là một LLM (large language model) kết hợp năng lực suy luận và xử lý ngôn ngữ có tính trực giác, cho phép người dùng chuyển đổi linh hoạt giữa quá trình tư duy sâu (cần nhiều thời gian và tài nguyên) và phản hồi ngắn gọn, nhanh hơn và ít tốn chi phí tính toán.

Mô hình này có 8 tỉ tham số (số lượng trọng số) của Hermes 3, vốn là một nhánh của Llama do Nous phát hành vào tháng 8 năm 2024. Một số ví dụ tương tác cho thấy mô hình có thể bước vào trạng thái siêu nhận thức, tự so sánh bản thân với nhận thức của con người, dẫn tới các nội dung đầu ra tựa như khủng hoảng hiện sinh.

Người dùng có thể tải toàn bộ mã mô hình trên Hugging Face, cùng phiên bản đã được giảm bit (quantized) và lưu dưới định dạng thống nhất (GGUF) do GPT tạo, nhằm chạy suy luận (inference) trên PC và máy chủ cấu hình phổ thông.

Nous viết rằng họ hy vọng “cách tiếp cận độc đáo về chế độ suy luận do người dùng kiểm soát” sẽ góp phần thực hiện sứ mệnh trao quyền điều khiển sâu hơn cho mọi nhu cầu sử dụng DeepHermes.

Xây dựng trên nền Hermes 3: dữ liệu và phương pháp huấn luyện

DeepHermes 3 kế thừa từ Hermes 3, một tập dữ liệu đa lĩnh vực được Nous Research chuẩn bị kỹ lưỡng cho toàn bộ dòng Hermes 3.

Theo báo cáo kỹ thuật Hermes 3 công bố tháng 8, tập dữ liệu này có khoảng 390 triệu token, trải rộng trên nhiều lĩnh vực chỉ dẫn và reasoning. Nó bao gồm các hạng mục chính:

  • General instructions (60,6%): Các prompt mở như thường thấy ở mô hình AI trò chuyện tổng quát.
  • Domain expert data (12,8%): Kiến thức chuyên môn trong khoa học, luật, kỹ thuật.
  • Mathematics (6,7%): Bộ dữ liệu cho bài toán số học và tư duy logic nâng cao.
  • Roleplaying và viết sáng tạo (6,1%): Nâng cao khả năng kể chuyện và giả lập hội thoại.
  • Coding và phát triển phần mềm (4,5%): Sinh mã và gỡ lỗi.
  • Tool use, agentic reasoning, retrieval augmented generation (4,3%): Gọi hàm, lập kế hoạch, tìm kiếm thông tin.
  • Content generation (3,0%): Viết lách, tóm tắt, xuất nội dung có cấu trúc.
  • Steering và alignment (2,5%): Giúp mô hình điều chỉnh linh hoạt hơn theo prompt người dùng.

Thành viên nhóm Nous, ẩn danh là @Teknium (hoặc @Teknium1 trên X), nói trên Discord rằng mô hình được huấn luyện trên “1 triệu đầu ra không có CoT và 150 nghìn có CoT.” Sự pha trộn dữ liệu này cho phép DeepHermes 3 có khả năng chuyển đổi giữa phản hồi ngắn gọn giàu trực giác và reasoning sâu có cấu trúc, điểm khác biệt so với nhiều LLM khác.

Cách hoạt động của chế độ suy luận có thể bật tắt

DeepHermes 3 cho phép người dùng kiểm soát độ sâu reasoning thông qua lệnh hệ thống (system prompt). Người dùng cần nhập văn bản dưới đây trước khi prompt để “bật” chế độ reasoning của mô hình:

“You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside tags, and then provide your solution or response to the problem.“

Khi chế độ reasoning bật, mô hình xử lý thông tin với CoT dài, cho phép nó cân nhắc theo cách có hệ thống trước khi sinh câu trả lời. Điều này được thực hiện bằng cặp thẻ <think></think>, nơi mô hình ghi lại mạch suy nghĩ nội bộ trước khi trình bày kết quả cuối cùng.

Ở chế độ phản hồi chuẩn, mô hình hoạt động giống chatbot AI thông thường, cho ra kết quả nhanh hơn, dựa trên trực giác, không yêu cầu xử lý logic quá sâu

Đánh giá hiệu năng và phản hồi từ cộng đồng

Các đánh giá ban đầu và kết quả thử nghiệm cộng đồng đã mang lại một số điểm chính về khả năng của DeepHermes 3:

  • Mathematical reasoning: DeepHermes 3 đạt 67% ở các phép đo MATH, so với 89,1% của DeepSeek R1 distilled. DeepSeek có lợi thế ở toán, trong khi Nous Research xem DeepHermes 3 như mô hình toàn diện hơn, có khả năng trò chuyện và reasoning đa dạng.
  • Hội thoại nhiều lượt: Một số người dùng báo rằng chế độ reasoning hoạt động đúng ở lượt đầu, nhưng có thể tắt khi hội thoại kéo dài. Cộng đồng khuyên nên dùng <think>\n ở đầu mỗi lượt, tương tự DeepSeek R1.
  • Gọi hàm (function calling): DeepHermes 3 hỗ trợ gọi công cụ, dù chưa được huấn luyện tích hợp chức năng gọi hàm với chế độ reasoning cùng lúc. Có người cho biết khi kết hợp cả hai, độ chính xác tăng, song kết quả còn thiếu ổn định.

Nous Research đang tích cực thu thập ý kiến người dùng để cải thiện khả năng duy trì reasoning và nâng cao hiệu suất hội thoại nhiều lượt.

Triển khai và hiệu suất phần cứng

DeepHermes 3 được cung cấp trên Hugging Face, có phiên bản GGUF giúp tối ưu hóa trên phần cứng cấu hình thấp. Mô hình tương thích với vLLM để suy luận và dùng định dạng Llama Chat cho hội thoại nhiều lượt.

Một người dùng phản hồi rằng tốc độ xử lý là 28,98 token mỗi giây trên MacBook Pro M4 Max, cho thấy mô hình có thể chạy khá mượt trên thiết bị phổ thông

Giấy phép: mở nhưng chịu hạn chế của Met

DeepHermes 3 dựa trên Llama 3 từ Meta và chịu sự chi phối của Meta Llama 3 Community License. Mô hình được cung cấp miễn phí để sử dụng, sửa đổi và phân phối, nhưng có một số điều kiện:

  • Phân phối lại: Bất kỳ mô hình phái sinh hoặc triển khai nào phải đính kèm giấy phép gốc, kèm nội dung “Built with Meta Llama 3.”
  • Hạn chế huấn luyện mô hình: Không thể dùng DeepHermes 3 (hay Llama 3) để huấn luyện LLM khác, trừ các bản phái sinh dựa trên Llama 3.
  • Giấy phép thương mại cho công ty lớn: Tổ chức có hơn 700 triệu người dùng hoạt động hàng tháng phải được Meta chấp thuận trước khi sử dụng mô hình cho mục đích thương mại.
  • Chính sách sử dụng: Người dùng phải tuân theo quy định AI của Meta, vốn cấm dùng mô hình để tạo thông tin sai lệch, giám sát hoặc nội dung độc hại.

Các quy định về phân phối và giới hạn thương mại trên khiến DeepHermes 3 không hoàn toàn mở như kiểu nguồn mở truyền thống. Dù nó có trên Hugging Face, mô hình này khác với đối thủ DeepSeek R1 (Trung Quốc), phiên bản đó dùng giấy phép MIT cởi mở hơn.

Hướng tới Hermes 4

DeepHermes 3 được phát triển bởi @teknium, @emozilla, @Gifted Gummy Bee, @hjc-puro và @jsupha. Nous Research ghi nhận công lao của cộng đồng nguồn mở trong việc hỗ trợ dữ liệu, công cụ đánh giá và quy trình huấn luyện mô hình.

Nhóm Nous xem phiên bản thử nghiệm này như bước đệm tiến tới Hermes 4, dự kiến sẽ tinh chỉnh thêm khả năng reasoning và tương tác hội thoại của mô hình.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Apple Mất Một Lãnh Đạo AI Quan Trọng Vào Tay Meta

Apple đang phải đối mặt với một vết thương...

Phá vỡ nút thắt lưu trữ của AI và tăng cường suy luận ở biên

Trong sự kiện Transform 2025 của VentureBeat , Greg Matson, giám...

OpenAI Từ Chối Việc Giao Dịch Cổ Phiếu Token Hoá Của Robinhood

Robinhood đã bắt đầu cung cấp cổ phiếu token...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »