Việc quản lý và điều phối các yêu cầu suy luận AI trên hệ thống GPU quy mô lớn là yếu tố quan trọng để đảm bảo AI factory vận hành với hiệu suất tối ưu, đồng thời tối đa hóa lợi nhuận từ số lượng token AI được tạo ra.
Trong bối cảnh AI reasoning ngày càng phổ biến, mỗi mô hình AI có thể tạo ra hàng chục nghìn token cho mỗi lệnh yêu cầu. Vì vậy, việc cải thiện tốc độ xử lý inference và giảm chi phí vận hành là điều cốt lõi để giúp các nhà cung cấp AI tăng trưởng nhanh chóng và mở rộng doanh thu.
c: Thế Hệ Phần Mềm AI Inference Mới Nhất
Dynamo là thế hệ tiếp theo của NVIDIA Triton Inference Server, được thiết kế đặc biệt để tối đa hóa lợi nhuận từ token AI cho các AI factory đang triển khai các mô hình reasoning AI.
Phần mềm này giúp điều phối và tăng tốc quá trình xử lý inference trên hàng nghìn GPU, nhờ vào phương pháp disaggregated serving, tức là tách biệt quá trình xử lý (processing) và tạo kết quả (generation) của mô hình ngôn ngữ lớn (LLM) trên các GPU riêng biệt.
Cách tiếp cận này giúp:
- Tối ưu hóa từng giai đoạn inference một cách độc lập.
- Đảm bảo GPU được sử dụng tối đa mà không lãng phí tài nguyên.
Jensen Huang, Nhà sáng lập kiêm CEO của NVIDIA, phát biểu:

“Các ngành công nghiệp trên toàn cầu đang đào tạo các mô hình AI để suy nghĩ và học hỏi theo nhiều cách khác nhau, giúp chúng ngày càng thông minh hơn. Để hỗ trợ một tương lai AI tùy chỉnh, NVIDIA Dynamo sẽ giúp mở rộng quy mô triển khai mô hình AI reasoning, mang lại hiệu suất cao hơn và tiết kiệm chi phí cho AI factory.”
Dynamo Tăng Hiệu Suất AI Factory Như Thế Nào?
NVIDIA khẳng định rằng Dynamo có thể giúp AI factory tăng gấp đôi hiệu suất và doanh thu khi triển khai các mô hình như Llama trên nền tảng NVIDIA Hopper.
Khi chạy mô hình DeepSeek-R1 trên cụm GPU GB200 NVL72, Dynamo giúp tăng số lượng token AI được tạo ra lên hơn 30 lần trên mỗi GPU.

Những cải tiến này có được nhờ vào các công nghệ tối ưu hóa inference, bao gồm:
- Khả năng phân bổ, loại bỏ và điều chỉnh số lượng GPU theo thời gian thực, giúp thích ứng linh hoạt với nhu cầu của hệ thống.
- Định tuyến thông minh, giúp xác định GPU phù hợp nhất để xử lý từng yêu cầu nhằm giảm thiểu độ trễ.
- Offload dữ liệu inference sang các thiết bị lưu trữ chi phí thấp hơn, giúp giảm chi phí vận hành mà vẫn đảm bảo tốc độ truy xuất nhanh chóng.
Dynamo hoàn toàn là mã nguồn mở, tương thích với nhiều nền tảng như PyTorch, SGLang, NVIDIA TensorRT-LLM và vLLM. Điều này giúp các doanh nghiệp, startup và nhóm nghiên cứu dễ dàng phát triển và tối ưu hóa các phương pháp phục vụ AI trên hạ tầng inference phân tán (disaggregated inference infrastructure).
Dynamo Được Hỗ Trợ Bởi Các Hãng Công Nghệ Hàng Đầu
NVIDIA dự kiến rằng Dynamo sẽ thúc đẩy sự phổ biến của inference AI trong nhiều tổ chức, bao gồm các nhà cung cấp dịch vụ đám mây và công ty AI lớn như:
- AWS, Google Cloud, Microsoft Azure, Meta, Dell, OCI
- Fireworks, Perplexity AI, Together AI, Cohere, NetApp
Các công ty này đã và đang tích hợp Dynamo vào hạ tầng của họ để tối ưu hóa quá trình inference AI, giúp mở rộng quy mô AI factory một cách hiệu quả hơn.
Dynamo Nâng Cao Hiệu Suất AI Inference Và AI Tác Nhân
Một trong những đổi mới quan trọng của Dynamo là tận dụng bộ nhớ suy luận (KV Cache) từ các yêu cầu trước đó để định tuyến thông minh các truy vấn mới đến GPU phù hợp nhất.
Điều này giúp:
- Giảm thiểu chi phí tính toán bằng cách tránh các phép tính trùng lặp.
- Tăng tốc độ xử lý yêu cầu mới mà không làm ảnh hưởng đến tài nguyên GPU.
Denis Yarats, Giám đốc Công nghệ của Perplexity AI, cho biết:

“Để xử lý hàng trăm triệu yêu cầu mỗi tháng, chúng tôi cần NVIDIA GPUs và phần mềm inference mạnh mẽ. Chúng tôi mong đợi việc tích hợp Dynamo để tăng cường hiệu quả phục vụ AI.”
Cohere cũng đang lên kế hoạch tích hợp Dynamo để mở rộng khả năng AI tác nhân (agentic AI) trên dòng mô hình Command AI.
Saurabh Baji, Phó Chủ tịch Kỹ thuật tại Cohere, nhận định:
“Việc mở rộng mô hình AI tiên tiến đòi hỏi khả năng lập lịch GPU đa lớp và cơ chế giao tiếp thông minh giữa bộ nhớ và lưu trữ. Chúng tôi tin rằng Dynamo sẽ giúp chúng tôi mang lại trải nghiệm AI tối ưu nhất cho khách hàng doanh nghiệp.”

Hỗ Trợ Kỹ Thuật Cho Mô Hình AI Disaggregated
Dynamo cũng hỗ trợ phương pháp disaggregated serving, trong đó:
- Quá trình hiểu truy vấn và tạo phản hồi được phân bổ trên các GPU khác nhau.
- Các bước inference của mô hình LLM có thể được tối ưu hóa riêng biệt để đạt hiệu suất cao nhất.
Công ty Together AI đang tích hợp NVIDIA Dynamo vào Together Inference Engine để mở rộng quy mô inference AI trên nhiều cụm GPU.
Ce Zhang, Giám đốc Công nghệ của Together AI, cho biết:

“Việc tối ưu hóa inference AI yêu cầu những kỹ thuật tiên tiến như disaggregated serving và context-aware routing. NVIDIA Dynamo với tính mở và khả năng tùy chỉnh cao sẽ giúp chúng tôi phục vụ AI hiệu quả hơn, đồng thời tối đa hóa hiệu suất sử dụng GPU.”
4 Đột Phá Công Nghệ Chính Của NVIDIA Dynamo
1. GPU Planner
- Cơ chế lập lịch thông minh giúp tự động điều chỉnh số lượng GPU theo nhu cầu để tối ưu tài nguyên.
2. Smart Router
- Hệ thống định tuyến thông minh giúp tránh tính toán trùng lặp trên GPU, giải phóng tài nguyên để xử lý yêu cầu mới.
3. Low-Latency Communication Library
- Thư viện giao tiếp tốc độ cao giữa GPU-GPU, tăng tốc độ truyền tải dữ liệu trong quá trình inference.
4. Memory Manager
- Cơ chế quản lý bộ nhớ, giúp offload dữ liệu inference sang các thiết bị lưu trữ rẻ hơn mà vẫn đảm bảo khả năng truy xuất nhanh.

NVIDIA Dynamo: Tương Lai Của AI Inference
Dynamo sẽ sớm được tích hợp vào NIM microservices và các bản phát hành tiếp theo của nền tảng NVIDIA AI Enterprise.
Bằng cách giảm chi phí vận hành, tối ưu hóa inference và tăng cường khả năng mở rộng, NVIDIA Dynamo được kỳ vọng sẽ trở thành công cụ quan trọng giúp các doanh nghiệp triển khai AI factory hiệu quả hơn.
Tìm hiểu thêm tại: https://chatgpt.com/