'Vượt qua mọi kỳ vọng của tôi': Midjourney phát hành mô hình video AI đầu tiên trong bối cảnh Disney và Universal kiện tụng

Bắt đầu từ hôm nay, gần 20 triệu người dùng Midjourney có thể tạo hoạt ảnh cho hình ảnh thông qua trang web, chuyển đổi ảnh tĩnh được tạo hoặc tải lên thành clip dài 5 giây với tùy chọn kéo dài thời gian tạo clip lên đến 20 giây (theo từng đợt 5 giây) và hướng dẫn bằng văn bản.

Với sự ra mắt này, phòng thí nghiệm nhỏ tự lực Midjourney định vị mình trong cuộc đua video AI đang diễn ra nhanh chóng. Đồng thời, nó cũng đang phải đối mặt với những thách thức pháp lý nghiêm trọng từ hai trong số những hãng phim giải trí lớn nhất thế giới.

Điều này có ý nghĩa gì đối với những người sáng tạo AI và các doanh nghiệp muốn khai thác công nghệ sáng tạo mới nhất cho quảng cáo, tiếp thị hoặc thu hút người dùng? Và Midjourney so sánh như thế nào với danh sách dài và ngày càng tăng của các đối thủ cạnh tranh về mô hình video AI? Hãy đọc để tìm hiểu.

Một sản phẩm mới được xây dựng trực tiếp trên trình tạo hình ảnh AI phổ biến của Midjourney

Sản phẩm mới của Midjourney mở rộng quy trình làm việc quen thuộc dựa trên hình ảnh, bao gồm mô hình chuyển văn bản thành hình ảnh v7 mới.

Người dùng tạo một hình ảnh tĩnh, có thể là trong nền tảng Midjourney hoặc bằng cách tải lên tệp bên ngoài, sau đó nhấn “Hoạt hình” để biến hình ảnh đó thành video.

Có hai chế độ chính: một chế độ sử dụng tổng hợp chuyển động tự động, trong khi chế độ còn lại cho phép người dùng viết lời nhắc chuyển động tùy chỉnh để ra lệnh bằng văn bản về cách các thành phần nên di chuyển trong cảnh. Vì vậy, video Midjourney hỗ trợ cả chỉnh sửa và sửa đổi hình ảnh thành video và văn bản thành video.

Về mặt sáng tạo, người dùng có thể chuyển đổi giữa hai cài đặt chuyển động. Có chế độ chuyển động thấp được tối ưu hóa cho chuyển động xung quanh hoặc tối giản — chẳng hạn như nhân vật chớp mắt hoặc gió nhẹ làm thay đổi phong cảnh — và chế độ chuyển động cao cố gắng tạo hoạt ảnh động hơn cho cả chủ thể và máy ảnh, mặc dù điều này có thể làm tăng khả năng xảy ra lỗi hình ảnh.

Bạn có thể truy cập những mục này bên dưới hình ảnh được tạo hoặc tải lên trên trang web Midjourney trong ngăn tùy chọn bên phải bên dưới trường có nhãn “Hình ảnh động”, như hiển thị ở đây:

Mỗi tác vụ video tạo ra bốn clip 5 giây khác nhau làm tùy chọn và người dùng có thể kéo dài hoạt ảnh thêm 4 giây cho mỗi clip, tối đa là 20 giây.

Mặc dù bản cập nhật này có thời lượng tương đối ngắn, nhưng công ty đã chỉ ra rằng thời lượng video và các tính năng sẽ được mở rộng trong các bản cập nhật trong tương lai.

Midjourney, ra mắt vào mùa hè năm 2022, được nhiều nhà sáng tạo hình ảnh AI coi là sự ra mắt hoặc “tiêu chuẩn vàng” trong việc tạo hình ảnh AI cho đến ngày nay nhờ các tùy chọn sáng tạo tương đối thường xuyên, thực tế và đa dạng hơn, do đó, có nhiều kỳ vọng cao xung quanh việc ứng dụng này gia nhập không gian video AI.

Phản ứng ban đầu từ người dùng mà chúng tôi thấy chủ yếu là hứa hẹn, một số người như nhà thiết kế AI của Perplexity Phi Hoang ( @apostraphi trên X ) bình luận: “nó vượt qua mọi mong đợi của tôi” trong một bài đăng trên X.

Giá cả phải chăng

Midjourney cung cấp quyền truy cập video như một phần của các gói đăng ký hiện tại, bắt đầu từ 10 đô la một tháng .

Công ty tuyên bố rằng mỗi công việc video sẽ tốn kém hơn khoảng 8 lần so với tác vụ tạo hình ảnh. Tuy nhiên, vì mỗi công việc video tạo ra 20 giây nội dung, nên chi phí cho mỗi giây gần tương đương với việc tạo ra một hình ảnh tĩnh—một mô hình định giá dường như đang hạ giá nhiều đối thủ cạnh tranh.

“ Chế độ thư giãn video” đang được thử nghiệm cho những người đăng ký “Pro” trở lên. Chế độ này, giống như chế độ tương đương trong việc tạo hình ảnh, sẽ cung cấp khả năng xử lý chậm để đổi lấy chi phí tính toán giảm. Việc tạo nhanh vẫn được tính theo phút GPU dựa trên các gói đăng ký theo từng tầng.

Các nhà bình luận cộng đồng phần lớn đều đánh giá tích cực về mức giá này. Người sáng tạo nội dung AI @BLVCKLIGHTai nhấn mạnh trên mạng xã hội rằng chi phí này gần bằng với số tiền người dùng phải trả để nâng cấp hình ảnh—khiến công cụ này trở nên đáng ngạc nhiên khi có giá cả phải chăng cho thử nghiệm video dạng ngắn.

Gói này tương đương với gói “Web Lite Plan” của đối thủ Luma AI với giá 9,99 đô la một tháng và thấp hơn gói “Standard” của Runway (15 đô la một tháng).

Sau đây là một số dịch vụ khác có sẵn:

Mô hình video AI	Công ty	Giá khởi điểm
Sora của OpenAI	MởAI	Bắt đầu từ $20/tháng với ChatGPT Plus (50 video) hoặc $200/tháng với ChatGPT Pro
Veo 3 của Google DeepMind	Google DeepMind / Google AI Ultra	249,99 đô la/tháng qua AI Ultra
Đường băng Gen‑4	Đường băng	Gói miễn phí; gói trả phí từ 12 đô la/tháng Tiêu chuẩn , 28 đô la/tháng Chuyên nghiệp , 76 đô la/tháng Không giới hạn
Máy Dream của Luma Labs	Phòng thí nghiệm Luma	Bắt đầu từ $9,99/tháng (web Lite) hoặc $6,99/tháng thanh toán hàng năm
AI của Kling	Kling (trước đây là Kuaishou)	6,99 đô la/tháng với mức giảm giá, 8,80 đô la nếu không có
MiniMax (Hailuo)	Hailuo AI / MiniMax	Trả tiền khi sử dụng với giá 0,625 đô la cho mỗi thế hệ ; gói tiêu chuẩn 9,99 đô la/tháng hoặc 14,99 đô la/tháng không có
Phòng thí nghiệm Pika (Pika 2.2)	Phòng thí nghiệm Pika	Miễn phí cơ bản; $10/tháng
Video Firefly của Adobe	Adobe	Gói miễn phí; trả từ 9,99 đô la/tháng Tiêu chuẩn, 29,99 đô la/tháng Chuyên nghiệp
Trí tuệ nhân tạo Higgsfield	Trí tuệ nhân tạo Higgsfield	9 đô la/tháng cho gói Cơ bản
Genmo (Mochi)	genmo	Miễn phí (mã nguồn mở)
Marey của Moonvalley	Thung lũng Mặt Trăng	Không tiết lộ, ước tính
Studio LTX của Lightricks	Ánh sáng	9 đô la/tháng cho gói Lite

Chưa có âm thanh và trình chỉnh sửa tích hợp hạn chế hơn so với các đối thủ video AI như Runway, Sora, Luma

Hạn chế đáng chú ý nhất của mô hình này là thiếu âm thanh .

Không giống như các đối thủ cạnh tranh như Veo 3 của Google và Dream Machine của Luma Labs , hệ thống của Midjourney không tạo ra các bản nhạc đi kèm hoặc hiệu ứng âm thanh xung quanh.

Hiện tại, bất kỳ bản nhạc phim nào cũng cần phải được thêm thủ công trong quá trình hậu kỳ bằng các công cụ riêng biệt.

Ngoài ra, các đầu ra của Midjourney vẫn ngắn và bị giới hạn ở mức 20 giây . Hiện tại không có hỗ trợ nào cho việc chỉnh sửa dòng thời gian, chuyển cảnh hoặc tính liên tục giữa các clip.

Midjourney tuyên bố đây chỉ là sự khởi đầu và bản phát hành đầu tiên có mục đích mang tính khám phá, dễ tiếp cận và có khả năng mở rộng.

Cổ phần ngày càng tăng trong thị trường video AI đông đúc

Sự ra mắt diễn ra vào thời điểm mà việc tạo video bằng AI đang nhanh chóng trở thành một trong những lĩnh vực cạnh tranh nhất trong bối cảnh AI tạo ra .

Các công ty công nghệ lớn, các công ty khởi nghiệp được đầu tư mạo hiểm và các dự án nguồn mở đều đang phát triển nhanh chóng.

Tuần này, công ty khởi nghiệp Trung Quốc MiniMax đã phát hành Hailuo 02 , bản nâng cấp cho mẫu video trước đó. Phản hồi ban đầu đã khen ngợi tính chân thực, khả năng tuân thủ chuyển động theo lời nhắc và độ phân giải 1080p , mặc dù một số người đánh giá lưu ý rằng thời gian kết xuất vẫn tương đối chậm.

Mẫu máy này có vẻ đặc biệt thành thạo trong việc diễn giải chuyển động phức tạp hoặc góc máy quay điện ảnh, có thể so sánh trực tiếp với các sản phẩm của phương Tây như Gen-3 Alpha của Runway và dòng Veo của Google.

Trong khi đó, Dream Machine của Luma Labs đã thu hút được sự chú ý nhờ khả năng đồng thời tạo âm thanh cùng với video có độ trung thực cao, một tính năng còn thiếu trong bản phát hành mới của Midjourney và giống như Runway, cho phép định dạng lại hoặc “thay đổi giao diện” video bằng tính năng mới có tên là Modify Video .

Veo 3 của Google và mô hình Sora sắp ra mắt của OpenAI đều hướng đến mục tiêu tổng hợp đa phương thức rộng hơn, tích hợp văn bản, hình ảnh, video và âm thanh thành các cảnh có thể chỉnh sửa và gắn kết.

Midjourney dường như đặt cược vào sự đơn giản và hiệu quả về mặt chi phí —một giải pháp “đủ tốt” được định giá theo quy mô—nhưng điều đó cũng có nghĩa là nó ra mắt mà không có nhiều tính năng nâng cao hiện là tiêu chuẩn trong gói video AI cao cấp.

Cái bóng của vụ kiện tụng từ Disney và Universal về vi phạm IP

Chỉ vài ngày trước khi ra mắt, Midjourney đã bị nêu tên trong vụ kiện vi phạm bản quyền toàn diện do Disney và Universal đệ trình lên Tòa án Quận Hoa Kỳ.

Khiếu nại dài hơn 100 trang này cáo buộc Midjourney đào tạo người mẫu của mình dựa trên các nhân vật có bản quyền – bao gồm các nhân vật từ Marvel, Star Wars, The Simpsons và Shrek – mà không được phép và tiếp tục cho phép người dùng tạo nội dung phái sinh.

Các hãng phim cáo buộc rằng Midjourney đã tạo ra một “hố đạo văn không đáy”, cố tình cho phép người dùng tạo ra những hình ảnh có thể tải xuống có các nhân vật như Darth Vader, Elsa, Iron Man, Bart Simpson, Shrek và Toothless mà không gặp nhiều khó khăn.

Họ còn khẳng định rằng Midjourney đã sử dụng các công cụ thu thập dữ liệu và trình thu thập dữ liệu web để thu thập các tài liệu có bản quyền và không triển khai các biện pháp bảo vệ kỹ thuật để chặn các đầu ra giống với IP được bảo vệ.

Lưu ý đặc biệt: vụ kiện nêu tên trước Dịch vụ video của Midjourney là nguồn có khả năng vi phạm trong tương lai , nêu rằng công ty đã bắt đầu đào tạo mô hình trước khi ra mắt và có khả năng đã sao chép các nhân vật được bảo vệ khi chuyển động.

Theo khiếu nại, Midjourney đã kiếm được 300 triệu đô la doanh thu vào năm 2024 và phục vụ gần 21 triệu người dùng . Các hãng phim cho rằng quy mô này mang lại cho nền tảng này lợi thế thương mại được xây dựng dựa trên lao động sáng tạo không được trả công.

Tổng cố vấn của Disney, Horacio Gutierrez , đã tuyên bố rõ ràng: “Vi phạm bản quyền là vi phạm bản quyền. Và việc nó được thực hiện bởi một công ty AI không làm cho nó ít vi phạm hơn”.

Vụ kiện này dự kiến sẽ thử thách giới hạn của luật bản quyền Hoa Kỳ liên quan đến dữ liệu đào tạo AI và kiểm soát đầu ra—và có thể ảnh hưởng đến cách các nền tảng như Midjourney, OpenAI và các nền tảng khác phải cấu trúc các bộ lọc nội dung hoặc thỏa thuận cấp phép trong tương lai.

Đối với các doanh nghiệp lo ngại về rủi ro vi phạm, các dịch vụ có chế độ bồi thường tích hợp như Sora của OpenAI hoặc Adobe Firefly Video có lẽ là lựa chọn tốt hơn cho việc tạo video bằng AI.

Mục tiêu là tạo ra một ‘mô hình thế giới’ và thế giới thời gian thực

Bất chấp những rủi ro trước mắt, lộ trình dài hạn của Midjourney vẫn rõ ràng và đầy tham vọng. Trong các tuyên bố công khai xung quanh việc phát hành mô hình video, công ty cho biết mục tiêu của họ là cuối cùng sẽ hợp nhất việc tạo hình ảnh tĩnh, chuyển động động, điều hướng không gian 3D và kết xuất thời gian thực thành một hệ thống thống nhất duy nhất, còn được gọi là mô hình thế giới .

Các hệ thống này nhằm mục đích cho phép người dùng điều hướng qua các môi trường được tạo ra một cách năng động—không gian nơi hình ảnh, nhân vật và dữ liệu đầu vào của người dùng phát triển theo thời gian thực, giống như trò chơi điện tử nhập vai hoặc trải nghiệm VR.

Họ hình dung ra một tương lai mà người dùng có thể đưa ra các lệnh như “đi dạo qua một khu chợ ở Morocco lúc hoàng hôn” và hệ thống sẽ phản hồi bằng một mô phỏng tương tác có thể khám phá được – hoàn chỉnh với hình ảnh phát triển và có lẽ cuối cùng là âm thanh sinh động.

Hiện tại, mô hình video đóng vai trò là bước đầu tiên theo hướng này. Midjourney đã mô tả nó như một “bước đệm kỹ thuật” cho các hệ thống phức tạp hơn.

Nhưng Midjourney không phải là phòng nghiên cứu AI duy nhất theo đuổi những kế hoạch đầy tham vọng như vậy.

Odyssey , một công ty khởi nghiệp được đồng sáng lập bởi các cựu chiến binh công nghệ tự lái Oliver Cameron và Jeff Hawke, gần đây đã ra mắt một hệ thống phát trực tuyến video ở tốc độ 30 khung hình/giây với khả năng tương tác không gian. Mô hình của họ cố gắng dự đoán “trạng thái tiếp theo của thế giới” dựa trên các trạng thái và hành động trước đó, cho phép người dùng nhìn xung quanh và khám phá các cảnh như thể đang điều hướng không gian 3D.

Odyssey kết hợp mô hình AI với phần cứng camera 360 độ của riêng mình và đang theo đuổi tích hợp với các nền tảng 3D như Unreal Engine và Blender để chỉnh sửa hậu kỳ. Tuy nhiên, nó vẫn chưa cho phép người dùng kiểm soát nhiều ngoài việc di chuyển vị trí của camera và xem mô hình tạo ra những cảnh ngẫu nhiên nào khi người dùng điều hướng không gian được tạo ra.

Tương tự như vậy, Runway , một công ty lâu năm trong lĩnh vực tạo video AI, đã bắt đầu đưa mô hình thế giới vào lộ trình công khai của mình. Các mô hình video AI của công ty — mới nhất trong số đó, Gen-4 được giới thiệu vào tháng 4 năm 2025 — hỗ trợ các điều khiển camera AI tiên tiến cho phép người dùng di chuyển quanh các đối tượng, phóng to và thu nhỏ hoặc lướt nhẹ nhàng qua các môi trường — các tính năng bắt đầu làm mờ ranh giới giữa tạo video và mô phỏng cảnh.

Trong bài đăng trên blog năm 2023, CTO Anastasis Germanidis của Runway đã định nghĩa các mô hình thế giới chung là các hệ thống hiểu môi trường đủ sâu để mô phỏng các sự kiện và tương tác trong tương lai bên trong chúng. Nói cách khác, chúng không chỉ tạo ra cảnh trông như thế nào mà còn dự đoán cách nó hoạt động .

Những nỗ lực AI lớn khác trong lĩnh vực này bao gồm:

DeepMind , đã tiến hành nghiên cứu cơ bản về mô hình hóa thế giới để đào tạo robot và học tăng cường;
World Labs , dự án mới do nhà nghiên cứu AI Fei-Fei Li đứng đầu , tập trung cụ thể vào các mô hình tập trung vào mô phỏng;
Microsoft , đang khám phá các mô hình thế giới cho các ứng dụng doanh nghiệp như bản sao kỹ thuật số và đào tạo dựa trên mô phỏng;
Decart , một công ty khởi nghiệp bí mật nhưng được tài trợ tốt, chuyên nghiên cứu các mô hình mô phỏng đa tác nhân.

Trong khi cách tiếp cận của Midjourney cho đến nay vẫn nhấn mạnh vào khả năng truy cập và tính dễ sử dụng, thì giờ đây nó đang báo hiệu một sự tiến hóa hướng tới các khuôn khổ mô phỏng tinh vi hơn này. Công ty cho biết để đạt được điều này, trước tiên họ phải xây dựng các thành phần cần thiết: hình ảnh tĩnh (mô hình hình ảnh gốc), chuyển động (mô hình video), điều khiển không gian (vị trí 3D) và khả năng phản hồi theo thời gian thực. Sau đó, mô hình video mới của họ đóng vai trò là một khối nền tảng trong cung dài hơn này.

Điều này đưa Midjourney vào cuộc đua toàn cầu—không chỉ tạo ra phương tiện truyền thông đẹp mắt mà còn xác định cơ sở hạ tầng của thế giới tương tác do AI tạo ra.

Một bước nhảy được tính toán và đầy hứa hẹn vào một không gian cạnh tranh ngày càng phức tạp

Sự gia nhập của Midjourney vào thế hệ video là sự mở rộng hợp lý của nền tảng hình ảnh phổ biến của nó, được định giá để tiếp cận rộng rãi và được thiết kế để giảm rào cản cho thử nghiệm hoạt hình. Nó cung cấp một con đường dễ dàng cho những người sáng tạo để đưa hình ảnh của họ vào cuộc sống—với cấu trúc chi phí, hiện tại, có vẻ vừa tích cực vừa bền vững.

Nhưng lần ra mắt này cũng đặt công ty vào đúng tầm ngắm của nhiều thách thức. Về mặt sản phẩm , công ty phải đối mặt với các đối thủ cạnh tranh có năng lực và nhanh nhạy với nhiều tính năng hơn và ít hành lý pháp lý hơn. Về mặt pháp lý , công ty phải bảo vệ các hoạt động của mình trong một vụ kiện có thể định hình lại cách các công ty AI được phép đào tạo và triển khai các mô hình tạo sinh tại Hoa Kỳ

Đối với các nhà lãnh đạo doanh nghiệp đang đánh giá các nền tảng sáng tạo AI, bản phát hành của Midjourney giống như một con dao hai lưỡi: một công cụ chi phí thấp, phát triển nhanh với sự chấp nhận mạnh mẽ của người dùng — nhưng lại có những vấn đề chưa được giải quyết về quy định và sở hữu trí tuệ có thể ảnh hưởng đến độ tin cậy hoặc tính liên tục trong quá trình triển khai của doanh nghiệp.

‘Vượt qua mọi kỳ vọng của tôi’: Midjourney phát hành mô hình video AI đầu tiên trong bối cảnh Disney và Universal kiện tụng

Một sản phẩm mới được xây dựng trực tiếp trên trình tạo hình ảnh AI phổ biến của Midjourney

Giá cả phải chăng

Chưa có âm thanh và trình chỉnh sửa tích hợp hạn chế hơn so với các đối thủ video AI như Runway, Sora, Luma

Cổ phần ngày càng tăng trong thị trường video AI đông đúc

Cái bóng của vụ kiện tụng từ Disney và Universal về vi phạm IP

Mục tiêu là tạo ra một ‘mô hình thế giới’ và thế giới thời gian thực

Một bước nhảy được tính toán và đầy hứa hẹn vào một không gian cạnh tranh ngày càng phức tạp

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi