Alibaba tung ra mô hình AI video mã nguồn mở Wan2.1-VACE, cung cấp bộ công cụ chỉnh sửa và tạo video đa năng đầu tiên trong ngành từ tạo video bằng văn bản đến chỉnh sửa khung hình chi tiết, mở ra cánh cửa sáng tạo cho mọi doanh nghiệp và nhà sáng tạo nội dung.
Wan2.1-VACE: Tích hợp tất cả trong một từ tạo video đến chỉnh sửa chuyên sâu
VACE (viết tắt của Video All-in-one Creation and Editing) không chỉ là mô hình tạo video thông thường. Đây là bước tiến lớn của Alibaba trong dòng mô hình Wan2.1 AI, khi tuyên bố rằng VACE là mô hình mã nguồn mở đầu tiên cung cấp giải pháp toàn diện cho mọi tác vụ tạo và chỉnh sửa video điều mà các công cụ khác thường yêu cầu sử dụng riêng biệt.
Với Wan2.1-VACE, người dùng có thể:
- Tạo video từ văn bản, hình ảnh tĩnh hoặc video có sẵn
- Biến ảnh thành video có chuyển động tự nhiên
- Thay đổi chi tiết một phần video mà không làm ảnh hưởng đến các phần khác
- Thêm hoặc loại bỏ đối tượng, thay đổi phông nền, màu sắc hoặc hành động
- Tái tạo chuyển động, kiểm soát góc nhìn và độ sâu (depth)
- Phóng to không gian video bằng cách tự động thêm nội dung liên quan để mở rộng khung hình

Video Repainting: Khả năng tái cấu trúc chuyển động và bố cục theo cách bạn muốn
Một trong những tính năng đột phá nhất của VACE là “video repainting” công nghệ cho phép người dùng:
- Truyền chuyển động từ nhân vật này sang nhân vật khác
- Thay đổi tư thế chính xác theo từng khung hình
- Vẽ đường chuyển động để “điều khiển” đối tượng di chuyển theo ý muốn
- Chuyển ảnh chân dung dọc thành video ngang, tự động hoàn thiện nội dung mở rộng bằng AI
Công nghệ nền tảng: VCU và Context Adapter Hiểu rõ thời gian và không gian video
Bên dưới khả năng linh hoạt của VACE là kiến trúc kỹ thuật tiên tiến gồm:
- Video Condition Unit (VCU): Hỗ trợ xử lý đa dạng đầu vào bao gồm văn bản, hình ảnh, video và mặt nạ (mask) trong một quy trình thống nhất
- Context Adapter Structure: Giúp mô hình hiểu rõ cấu trúc thời gian và không gian trong video, từ đó xử lý tốt các tác vụ như lặp lại, chuyển cảnh, hoặc tạo chuyển động mượt
Nhờ đó, Wan2.1-VACE có thể thực hiện đồng bộ nhiều chức năng phức tạp mà trước đây cần đến nhiều công cụ riêng biệt và quy trình hậu kỳ rườm rà.
Ứng dụng đa ngành: Từ mạng xã hội đến hậu kỳ phim ảnh
Với khả năng tạo và chỉnh sửa video chuyên sâu, Alibaba định vị VACE có tiềm năng ứng dụng trong nhiều lĩnh vực:
- Sáng tạo nội dung ngắn trên nền tảng mạng xã hội
- Quảng cáo thương mại với hình ảnh động bắt mắt
- Hậu kỳ phim và truyền hình, tối ưu hiệu ứng và chuyển cảnh
- Giáo dục và đào tạo, tạo video giảng dạy cá nhân hóa với chi phí thấp
Chiến lược mã nguồn mở: Dân chủ hóa AI video chất lượng cao
Alibaba không chỉ ra mắt VACE họ còn công bố mã nguồn mở hoàn toàn của mô hình này với hai phiên bản:
- Bản 14 tỷ tham số (14B): Dành cho những hệ thống GPU mạnh
- Bản nhẹ 1.3 tỷ tham số (1.3B): Phù hợp với doanh nghiệp vừa và nhỏ hoặc người sáng tạo cá nhân
Cả hai đều được phát hành miễn phí trên các nền tảng nổi tiếng như Hugging Face, GitHub và cộng đồng mã nguồn mở ModelScope của Alibaba Cloud.
“Việc mở quyền truy cập giúp giảm rào cản cho các doanh nghiệp nhỏ, giúp họ tạo ra nội dung video chất lượng cao phù hợp nhu cầu, với chi phí thấp và tốc độ cao,” đại diện Alibaba cho biết.
Lời kết: Wan2.1-VACE cánh cửa sáng tạo video mở rộng cho mọi doanh nghiệp
Trong bối cảnh cạnh tranh gay gắt về mô hình AI đa phương tiện, Alibaba đang đặt cược vào hướng tiếp cận mở không chỉ nhằm thu hút cộng đồng phát triển, mà còn để tạo ảnh hưởng thực sự trong hệ sinh thái AI video toàn cầu.
Việc cung cấp một nền tảng chỉnh sửa và tạo video thống nhất, hỗ trợ mọi định dạng đầu vào, với chất lượng cao và khả năng tùy biến linh hoạt là bước tiến mang tính cách mạng.
Nếu bạn đang tìm kiếm một công cụ AI giúp hiện thực hóa ý tưởng video từ sơ khởi đến sản phẩm cuối cùng mà không cần hàng loạt phần mềm phức tạp, Wan2.1-VACE có thể là lựa chọn không thể bỏ qua.
Tìm hiểu thêm tại: https://chatgpt.com/