Khi DeepSeek-R1 vừa xuất hiện, nỗi lo khiến ngành AI rung chuyển là năng lực suy luận cao cấp có thể đạt được với ít hạ tầng hơn.
Nhưng hóa ra mọi thứ không hẳn vậy. Ít nhất, theo quan điểm của Together AI, sự xuất hiện của DeepSeek và xu hướng mã nguồn mở cho suy luận đã có tác dụng ngược: thay vì giảm nhu cầu hạ tầng, nó lại làm nhu cầu này tăng thêm.
Đòi hỏi cao hơn này đã hỗ trợ tăng trưởng nền tảng và hoạt động kinh doanh của Together AI. Hôm nay, công ty công bố vòng đầu tư series B trị giá 305 triệu đôla, dẫn đầu bởi General Catalyst và Prosperity7. Together AI lần đầu ra mắt năm 2023 với mục tiêu đơn giản hóa cách doanh nghiệp dùng mô hình ngôn ngữ lớn (LLM) mã nguồn mở. Sang năm 2024, công ty mở rộng với nền tảng doanh nghiệp Together, cho phép triển khai AI trong môi trường “virtual private cloud” (VPC) và on-premises. Đến 2025, Together AI lại nâng cấp nền tảng với “reasoning cluster” và năng lực “agentic AI.”
Công ty khẳng định nền tảng AI của họ hiện có trên 450.000 nhà phát triển đăng ký, và hoạt động kinh doanh tăng gấp 6 lần so với năm ngoái. Khách hàng của Together AI bao gồm cả doanh nghiệp lớn và startup AI như Krea AI, Captions, Pika Labs.
“Chúng tôi hiện phục vụ mô hình cho mọi kiểu dữ liệu: ngôn ngữ, suy luận, hình ảnh, âm thanh lẫn video,” Vipul Prakash, CEO Together AI, chia sẻ với VentureBeat.
Ảnh hưởng to lớn mà DeepSeek-R1 gây ra cho nhu cầu hạ tầng AI
DeepSeek-R1 từng gây xáo trộn vì nhiều lý do — trong đó có giả thiết rằng một mô hình suy luận nguồn mở hàng đầu có thể xây và triển khai với hạ tầng nhỏ hơn mô hình độc quyền.
Nhưng Prakash giải thích, Together AI lại phải mở rộng hạ tầng để đáp ứng nhu cầu tăng vọt liên quan đến tải công việc DeepSeek-R1.
“Đây là mô hình suy luận khá tốn kém khi chạy,” ông nói. “Nó có 671 tỉ tham số, cần phân tán qua nhiều máy chủ. Và vì chất lượng cao hơn, nhu cầu ở phân khúc cao cũng lớn, đồng nghĩa đòi hỏi nhiều tài nguyên hơn.”
Thêm nữa, ông cho biết các yêu cầu gửi đến DeepSeek-R1 thường kéo dài 2-3 phút. Lượng người dùng yêu cầu DeepSeek-R1 quá lớn càng khiến doanh nghiệp phải trang bị nhiều máy móc hơn.
Để đáp ứng, Together AI triển khai dịch vụ “reasoning cluster,” cung cấp năng lực cố định (128 đến 2.000 chip) để chạy mô hình với hiệu suất tối ưu.
Cách Together AI giúp tổ chức khai thác AI suy luận
Có nhiều lĩnh vực mà Together AI đang chứng kiến mô hình suy luận phát huy tác dụng, gồm:
- Tác tử lập trình (coding agent): Mô hình suy luận hỗ trợ chia nhỏ bài toán lớn thành các bước.
- Giảm “ảo tưởng” (hallucination): Quá trình suy luận giúp kiểm chứng đầu ra mô hình, cắt giảm lỗi sai — rất quan trọng khi yêu cầu độ chính xác.
- Cải thiện mô hình không có suy luận: Khách hàng áp dụng phương pháp “distillation” để nâng chất lượng mô hình thường.
- “Tự cải thiện”: Tận dụng học tăng cường (reinforcement learning) với mô hình suy luận, cho phép mô hình tự cải thiện, không phụ thuộc quá nhiều vào dữ liệu gán nhãn thủ công.
Agentic AI cũng thúc đẩy nhu cầu hạ tầng AI
Together AI còn thấy nhu cầu hạ tầng tăng khi khách hàng áp dụng “agentic AI.”
Prakash cho biết, quy trình “agentic,” nơi một yêu cầu duy nhất của người dùng dẫn tới hàng nghìn lượt gọi API để hoàn tất, đang kéo theo nhu cầu tính toán cao hơn trên hạ tầng của Together AI.
Để hỗ trợ tác vụ “agentic,” Together AI mới thâu tóm CodeSandbox, công nghệ mang tới máy ảo (VM) khởi động nhanh, gọn, chạy code tùy ý nhưng vẫn an toàn bên trong đám mây của Together AI (nơi chứa các mô hình ngôn ngữ). Nhờ vậy, Together AI giảm độ trễ giữa “mã tác tử” và mô hình liên quan, cải thiện hiệu quả cho luồng công việc “agentic.”
Nvidia Blackwell đã tạo dấu ấn
Mọi nền tảng AI đều phải đối mặt nhu cầu ngày càng tăng.
Đó là lý do Nvidia liên tục tung chip mới hiệu năng cao. Chip mới nhất của Nvidia là Blackwell, nay đã được triển khai tại Together AI.
Prakash nói chip Blackwell của Nvidia đắt hơn khoảng 25% so với thế hệ trước, nhưng hiệu năng gấp 2 lần. Hệ thống GB 200 dùng chip Blackwell đặc biệt phù hợp để huấn luyện, suy luận mô hình “mixture of experts” (MoE), vốn đòi hỏi nhiều máy chủ kết nối qua InfiniBand. Ông cũng lưu ý chip Blackwell dự kiến nâng cao hiệu suất suy luận cho các mô hình cỡ lớn nhiều hơn so với mô hình nhỏ.
Bối cảnh cạnh tranh trong “agentic AI”
Thị trường hạ tầng AI đang cạnh tranh khốc liệt.
Together AI phải đua với cả nhà cung cấp dịch vụ đám mây “lão làng” và startup hạ tầng AI mới nổi. Các “hyperscaler” như Microsoft, AWS, Google đều có nền tảng AI, và cũng có nhiều công ty tập trung AI như Groq, Samba Nova thèm muốn miếng bánh này.
Together AI cung cấp giải pháp “full-stack,” gồm hạ tầng GPU lẫn lớp phần mềm, cho phép khách hàng dễ triển khai mô hình nguồn mở hoặc tự xây. Công ty cũng chú trọng nghiên cứu, phát triển kỹ thuật tối ưu, tăng tốc cả suy luận và huấn luyện.
“Ví dụ, chúng tôi chạy mô hình DeepSeek-R1 với tốc độ 85 token/giây, còn Azure chỉ 7 token/giây,” Prakash cho hay. “Có một khoảng cách ngày càng lớn về hiệu suất và chi phí mà chúng tôi đem lại cho khách.”