Thứ Bảy, Tháng 4 19, 2025

Cosmos-Transfer1 của Nvidia khiến việc đào tạo robot trở nên thực tế đến kỳ lạ—và điều đó thay đổi mọi thứ

“Chúng tôi giới thiệu Cosmos-Transfer1, một mô hình tạo thế giới có điều kiện có thể tạo ra các mô phỏng thế giới dựa trên nhiều đầu vào điều khiển không gian của nhiều phương thức khác nhau như phân đoạn, độ sâu và cạnh”, các nhà nghiên cứu của Nvidia tuyên bố trong một 
bài báo được công bố cùng với bản phát hành. “Điều này cho phép tạo ra thế giới có thể kiểm soát cao và được sử dụng trong nhiều trường hợp sử dụng chuyển giao thế giới sang thế giới khác nhau, bao gồm cả Sim2Real”.

Không giống như các mô hình mô phỏng trước đây, Cosmos-Transfer1 giới thiệu một hệ thống điều khiển đa phương thức thích ứng cho phép các nhà phát triển cân nhắc các đầu vào trực quan khác nhau—chẳng hạn như thông tin độ sâu hoặc ranh giới đối tượng—khác nhau trên các phần khác nhau của một cảnh. Bước đột phá này cho phép kiểm soát sắc thái hơn đối với các môi trường được tạo ra, cải thiện đáng kể tính hiện thực và tiện ích của chúng.

Cách điều khiển đa phương thức thích ứng chuyển đổi công nghệ mô phỏng AI

Các phương pháp truyền thống để đào tạo các hệ thống AI vật lý bao gồm thu thập lượng lớn dữ liệu thực tế – một quá trình tốn kém và mất thời gian – hoặc sử dụng các môi trường mô phỏng thường thiếu tính phức tạp và biến đổi của thế giới thực.

Cosmos-Transfer1 giải quyết tình trạng khó xử này bằng cách cho phép các nhà phát triển sử dụng các đầu vào đa phương thức (như hình ảnh mờ, phát hiện cạnh, bản đồ độ sâu và phân đoạn) để tạo ra các mô phỏng chân thực, bảo toàn các khía cạnh quan trọng của cảnh gốc đồng thời thêm các biến thể tự nhiên.

“Trong thiết kế, sơ đồ điều kiện không gian có khả năng thích ứng và tùy chỉnh”, các nhà nghiên cứu giải thích. “Nó cho phép cân nhắc các đầu vào có điều kiện khác nhau theo cách khác nhau tại các vị trí không gian khác nhau”.

Khả năng này đặc biệt có giá trị trong lĩnh vực robot, nơi nhà phát triển có thể muốn duy trì khả năng kiểm soát chính xác cách cánh tay robot xuất hiện và di chuyển trong khi vẫn cho phép tự do sáng tạo hơn trong việc tạo ra các môi trường nền đa dạng. Đối với xe tự hành, khả năng này cho phép bảo tồn bố cục đường bộ và mô hình giao thông trong khi thay đổi điều kiện thời tiết, ánh sáng hoặc bối cảnh đô thị.

Các ứng dụng AI vật lý có thể biến đổi robot và lái xe tự động

Tiến sĩ Ming-Yu Liu , một trong những người đóng góp cốt lõi cho dự án, đã giải thích lý do tại sao công nghệ này lại quan trọng đối với các ứng dụng trong ngành.

“Một mô hình chính sách hướng dẫn hành vi của hệ thống AI vật lý, đảm bảo hệ thống hoạt động an toàn và phù hợp với mục tiêu của nó”, Liu và các đồng nghiệp lưu ý trong bài báo. “Cosmos-Transfer1 có thể được đào tạo sau thành các mô hình chính sách để tạo ra các hành động, tiết kiệm chi phí, thời gian và nhu cầu dữ liệu của đào tạo chính sách thủ công”.

Công nghệ này đã chứng minh được giá trị của nó trong thử nghiệm mô phỏng robot. Khi sử dụng Cosmos-Transfer1 để tăng cường dữ liệu mô phỏng robot, các nhà nghiên cứu của Nvidia nhận thấy mô hình cải thiện đáng kể tính chân thực của ảnh bằng cách “thêm nhiều chi tiết cảnh hơn và đổ bóng phức tạp cùng ánh sáng tự nhiên” trong khi vẫn bảo toàn động lực vật lý của chuyển động robot.

Đối với việc phát triển xe tự hành, mô hình này cho phép các nhà phát triển “tối đa hóa tiện ích của các trường hợp ngoại lệ trong thế giới thực”, giúp xe học cách xử lý những tình huống hiếm gặp nhưng quan trọng mà không cần phải gặp phải trên đường thực tế.

Bên trong hệ sinh thái AI chiến lược của Nvidia dành cho các ứng dụng trong thế giới thực

Cosmos-Transfer1 chỉ là một thành phần của nền tảng Cosmos rộng hơn của Nvidia , một bộ mô hình nền tảng thế giới (WFM) được thiết kế riêng cho phát triển AI vật lý. Nền tảng này bao gồm Cosmos-Predict1 để tạo ra thế giới mục đích chung và Cosmos-Reason1 để lý luận thông thường về mặt vật lý.

“Nvidia Cosmos là nền tảng mô hình nền tảng thế giới dành cho nhà phát triển được thiết kế để giúp các nhà phát triển AI vật lý xây dựng hệ thống AI vật lý của họ tốt hơn và nhanh hơn”, công ty tuyên bố trên kho lưu trữ GitHub của mình . Nền tảng này bao gồm các mô hình được đào tạo trước theo Giấy phép mô hình mở của Nvidia và các tập lệnh đào tạo theo Giấy phép Apache 2 .

Điều này giúp Nvidia tận dụng được thị trường đang phát triển về các công cụ AI có thể đẩy nhanh quá trình phát triển hệ thống tự động, đặc biệt là khi các ngành công nghiệp từ sản xuất đến vận tải đều đầu tư mạnh vào công nghệ robot và tự động.

Tạo ra thời gian thực: Phần cứng của Nvidia hỗ trợ mô phỏng AI thế hệ tiếp theo như thế nào

Nvidia cũng đã chứng minh Cosmos-Transfer1 chạy theo thời gian thực trên phần cứng mới nhất của mình. “Chúng tôi tiếp tục chứng minh một chiến lược mở rộng suy luận để đạt được thế hệ thế giới theo thời gian thực với giá đỡ Nvidia GB200 NVL72”, các nhà nghiên cứu lưu ý.

Nhóm đã đạt được tốc độ tăng khoảng 40 lần khi mở rộng từ 1 đến 64 GPU, cho phép tạo ra 5 giây video chất lượng cao chỉ trong 4,2 giây — hiệu quả về mặt thời gian thực.

Hiệu suất ở quy mô này giải quyết một thách thức quan trọng khác của ngành: tốc độ mô phỏng. Mô phỏng nhanh, thực tế cho phép thử nghiệm và lặp lại nhanh hơn, đẩy nhanh quá trình phát triển các hệ thống tự động.

Đổi mới nguồn mở: Dân chủ hóa AI tiên tiến cho các nhà phát triển trên toàn thế giới

Quyết định của Nvidia công bố cả mô hình Cosmos-Transfer1 và mã cơ bản của nó trên GitHub đã xóa bỏ rào cản cho các nhà phát triển trên toàn thế giới. Bản phát hành công khai này cung cấp cho các nhóm nhỏ hơn và các nhà nghiên cứu độc lập quyền truy cập vào công nghệ mô phỏng trước đây đòi hỏi nhiều nguồn lực.

Động thái này phù hợp với chiến lược rộng hơn của Nvidia là xây dựng cộng đồng nhà phát triển mạnh mẽ xung quanh các sản phẩm phần cứng và phần mềm của mình. Bằng cách đưa những công cụ này vào tay nhiều người hơn, công ty mở rộng ảnh hưởng của mình đồng thời có khả năng đẩy nhanh tiến độ phát triển AI vật lý.

Đối với các kỹ sư robot và xe tự hành, những công cụ mới này có thể rút ngắn chu kỳ phát triển thông qua môi trường đào tạo hiệu quả hơn. Tác động thực tế có thể được cảm nhận đầu tiên trong các giai đoạn thử nghiệm, nơi các nhà phát triển có thể đưa hệ thống vào nhiều tình huống hơn trước khi triển khai trong thế giới thực.

Mặc dù mã nguồn mở giúp công nghệ này trở nên khả dụng, nhưng việc sử dụng hiệu quả vẫn đòi hỏi chuyên môn và nguồn lực tính toán — một lời nhắc nhở rằng trong quá trình phát triển AI, bản thân mã chỉ là khởi đầu của câu chuyện.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

So Sánh ChatGPT o3, o4-mini, GPT-4o và GPT-4.5: Mô Hình Nào Hoạt Động Tốt Nhất?

OpenAI đã làm dày thêm danh sách mô hình...

Meta FAIR Ra Mắt 5 Dự Án AI Mới, Hướng Tới Trí Tuệ Máy Giống Với Con Người

Nhóm Nghiên cứu AI Cốt lõi FAIR (Fundamental AI...

Thông báo, tin tức và nhiều thông tin khác của NVIDIA từ GTC 2025

Cuộc cách mạng AI đang tăng tốc nhờ các...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »