Mô hình này giới thiệu “kết xuất đa tỷ lệ”, một phương pháp kỹ thuật mới giúp tăng hiệu quả đáng kể bằng cách tạo video theo từng lớp chi tiết. Điều này cho phép người sáng tạo tạo video AI chất lượng chuyên nghiệp trên máy tính để bàn tiêu chuẩn và máy tính xách tay cao cấp thay vì yêu cầu thiết bị doanh nghiệp chuyên dụng.
“Việc giới thiệu mô hình Video LTX tham số 13B của chúng tôi đánh dấu một thời điểm quan trọng trong việc tạo video AI với khả năng tạo video nhanh, chất lượng cao trên GPU của người tiêu dùng”, Zeev Farbman, đồng sáng lập kiêm giám đốc điều hành của Lightricks, cho biết trong một cuộc phỏng vấn độc quyền với VentureBeat. “Người dùng của chúng tôi hiện có thể tạo nội dung với tính nhất quán hơn, chất lượng tốt hơn và kiểm soát chặt chẽ hơn”.
Lightricks dân chủ hóa video AI như thế nào bằng cách giải quyết vấn đề bộ nhớ GPU
Một thách thức lớn đối với việc tạo video AI là các yêu cầu tính toán khổng lồ. Các mô hình hàng đầu từ các công ty như Runway , Pika và Luma thường chạy trên đám mây trên nhiều GPU cấp doanh nghiệp với 80GB VRAM (bộ nhớ video) trở lên, khiến việc triển khai cục bộ trở nên không thực tế đối với hầu hết người dùng.
Farbman giải thích cách LTXV-13B giải quyết hạn chế này: “Ranh giới phân chia chính giữa GPU dành cho người tiêu dùng và doanh nghiệp là dung lượng VRAM. Nvidia định vị phần cứng chơi game của họ với giới hạn bộ nhớ nghiêm ngặt — GPU 3090 và 4090 thế hệ trước đạt tối đa 24 gigabyte VRAM, trong khi 5090 mới nhất đạt 32 gigabyte. So sánh thì phần cứng doanh nghiệp cung cấp nhiều hơn đáng kể.”
Mô hình mới được thiết kế để hoạt động hiệu quả trong những hạn chế về phần cứng của người tiêu dùng này. “Mô hình đầy đủ, không có bất kỳ lượng tử hóa nào, không có bất kỳ phép xấp xỉ nào, bạn sẽ có thể chạy trên các GPU tiêu dùng hàng đầu — 3090, 4090, 5090, bao gồm cả các phiên bản máy tính xách tay của chúng,” Farbman lưu ý.
Bên trong ‘kết xuất đa tỷ lệ’: Kỹ thuật lấy cảm hứng từ nghệ sĩ giúp tạo video AI nhanh hơn 30 lần
Sự đổi mới cốt lõi đằng sau hiệu quả của LTXV-13B là phương pháp kết xuất đa tỷ lệ, được Farbman mô tả là “bước đột phá kỹ thuật lớn nhất của bản phát hành này”.
“Nó cho phép mô hình tạo ra các chi tiết dần dần”, ông giải thích. “Bạn bắt đầu trên lưới thô, có được sự xấp xỉ thô sơ của cảnh, của chuyển động của các vật thể đang di chuyển, v.v. Và sau đó, cảnh được chia thành các ô. Và mỗi ô được lấp đầy với nhiều chi tiết hơn một cách dần dần”.
Quá trình này phản ánh cách các nghệ sĩ tiếp cận các cảnh phức tạp — bắt đầu bằng các bản phác thảo thô trước khi thêm các chi tiết tinh tế hơn. Ưu điểm của AI là “lượng VRAM tối đa của bạn bị giới hạn bởi kích thước ô, không phải độ phân giải cuối cùng”, Farbman cho biết.
Mô hình này cũng có không gian tiềm ẩn được nén nhiều hơn, đòi hỏi ít bộ nhớ hơn trong khi vẫn duy trì chất lượng. Farbman nói thêm: “Với video, bạn có tỷ lệ nén cao hơn cho phép bạn, khi bạn đang ở trong không gian tiềm ẩn, chỉ cần sử dụng ít VRAM hơn”.

Tại sao Lightricks lại đặt cược vào mã nguồn mở khi thị trường AI ngày càng đóng cửa
Trong khi nhiều mô hình AI hàng đầu vẫn còn phụ thuộc vào API đóng, Lightricks đã biến LTXV-13B thành mã nguồn mở hoàn toàn, có sẵn trên cả Hugging Face và GitHub . Quyết định này được đưa ra trong giai đoạn phát triển AI mã nguồn mở phải đối mặt với những thách thức từ cạnh tranh thương mại.
“Một năm trước, mọi thứ đã khép lại, nhưng mọi thứ đang dần mở ra. Chúng ta đang chứng kiến rất nhiều LLM và mô hình khuếch tán thú vị đang mở ra”, Farbman phản ánh. “Tôi lạc quan hơn bây giờ so với nửa năm trước”.
Chiến lược nguồn mở cũng giúp đẩy nhanh quá trình nghiên cứu và cải tiến. “Lý do chính để sử dụng nguồn mở là để giảm chi phí cho hoạt động R&D của bạn”, Farbman giải thích. “Có rất nhiều người trong giới học thuật sử dụng mô hình này, viết bài báo và bạn đang bắt đầu trở thành người quản lý hiểu được vàng thực sự ở đâu”.
Quan hệ đối tác giữa Getty và Shutterstock giúp giải quyết những thách thức về bản quyền của AI như thế nào
Khi các công ty AI sử dụng dữ liệu đào tạo bị thu thập ngày càng gặp nhiều thách thức về mặt pháp lý, Lightricks đã hợp tác với Getty Images và Shutterstock để tiếp cận nội dung được cấp phép phục vụ cho mục đích đào tạo mô hình.
“Việc thu thập dữ liệu để đào tạo các mô hình AI vẫn là một vùng xám pháp lý”, Farbman thừa nhận. “Chúng tôi có những khách hàng lớn trong phân khúc doanh nghiệp quan tâm đến loại công cụ này, vì vậy chúng tôi cần đảm bảo rằng chúng tôi có thể cung cấp các mô hình sạch cho họ”.
Những quan hệ đối tác này cho phép Lightricks cung cấp một mô hình có rủi ro pháp lý thấp hơn cho các ứng dụng thương mại, có khả năng mang lại lợi thế cho công ty trên thị trường doanh nghiệp quan tâm đến vấn đề bản quyền.
Đánh cược chiến lược: Tại sao Lightricks cung cấp miễn phí mô hình AI tiên tiến cho các công ty khởi nghiệp
Trong một động thái bất thường đối với ngành công nghiệp AI, Lightricks đang cung cấp LTXV-13B miễn phí cấp phép cho các doanh nghiệp có doanh thu hàng năm dưới 10 triệu đô la. Cách tiếp cận này nhằm mục đích xây dựng một cộng đồng các nhà phát triển và công ty có thể chứng minh giá trị của mô hình trước khi kiếm tiền.
“Suy nghĩ là giới học thuật thoát khỏi rắc rối. Những người này có thể làm bất cứ điều gì họ muốn với mô hình này,” Farbman nói. “Với các công ty khởi nghiệp và ngành công nghiệp, bạn muốn tạo ra các tình huống đôi bên cùng có lợi. Tôi không nghĩ bạn có thể kiếm được nhiều tiền từ một cộng đồng nghệ sĩ chơi với AI.”
Đối với các công ty lớn hơn tìm thấy thành công với mô hình này, Lightricks có kế hoạch đàm phán các thỏa thuận cấp phép tương tự như cách các công cụ trò chơi tính phí cho các nhà phát triển thành công. “Khi họ đạt được mười triệu doanh thu, chúng tôi sẽ đến nói chuyện với họ về việc cấp phép”, Farbman giải thích.
Ngoài Hollywood: Nơi video AI đang tạo ra tác động ngay lập tức trong hoạt hình và sản xuất
Bất chấp những tiến bộ được thể hiện bởi LTXV-13B , Farbman thừa nhận rằng việc tạo video AI vẫn còn nhiều hạn chế. “Nếu chúng ta trung thực với chính mình và nhìn vào các mô hình hàng đầu, chúng ta vẫn còn rất xa so với các bộ phim Hollywood. Họ vẫn chưa đạt đến đó”, ông nói.
Tuy nhiên, ông thấy được những ứng dụng thực tế ngay lập tức trong các lĩnh vực như hoạt hình, nơi các chuyên gia sáng tạo có thể sử dụng AI để xử lý các khía cạnh tốn thời gian của quá trình sản xuất. “Khi bạn nghĩ về chi phí sản xuất hoạt hình cao cấp, công việc sáng tạo thực sự, những người nghĩ về khung hình chính và câu chuyện, chỉ chiếm một phần nhỏ trong ngân sách. Nhưng khung hình chính là một vấn đề lớn về nguồn lực”, Farbman lưu ý.
Nhìn về phía trước, Farbman dự đoán ranh giới tiếp theo sẽ là các mô hình video đa phương thức tích hợp các loại phương tiện khác nhau trong một không gian tiềm ẩn được chia sẻ. “Sẽ là âm nhạc, âm thanh, video, v.v. Và sau đó những thứ như thực hiện đồng bộ hóa môi tốt sẽ dễ dàng hơn. Tất cả những thứ này sẽ biến mất. Bạn sẽ có mô hình đa phương thức này biết cách vận hành trên tất cả các phương thức khác nhau này.”
LTXV-13B hiện có sẵn dưới dạng bản phát hành mã nguồn mở và đang được tích hợp vào các ứng dụng sáng tạo của Lightricks, bao gồm nền tảng kể chuyện hàng đầu của hãng, LTX Studio .