Công ty khởi nghiệp có trụ sở tại New York, được Google , Nvidia và Salesforce hỗ trợ , đang phát hành “ Gen-4 ” cho tất cả người đăng ký trả phí và khách hàng doanh nghiệp, với các tính năng bổ sung được lên kế hoạch vào cuối tuần này. Người dùng có thể tạo clip dài năm và mười giây ở độ phân giải 720p.
Bản phát hành này diễn ra chỉ vài ngày sau khi OpenAI phát hành tính năng tạo hình ảnh mới cũng cho phép tính nhất quán của ký tự trên các hình ảnh của mình. Bản phát hành đã tạo ra một hiện tượng văn hóa, với hàng triệu người dùng yêu cầu hình ảnh theo phong cách Studio Ghibli thông qua ChatGPT. Một phần là tính nhất quán của phong cách Ghibli trên các cuộc trò chuyện đã tạo nên sự náo động.
Xu hướng lan truyền này trở nên phổ biến đến mức nó đã làm sập tạm thời các máy chủ của OpenAI, với CEO Sam Altman đã tweet rằng ” GPU của chúng tôi đang tan chảy ” do nhu cầu chưa từng có. Những hình ảnh theo phong cách Ghibli cũng gây ra những cuộc tranh luận gay gắt về bản quyền, với nhiều người đặt câu hỏi liệu các công ty AI có thể bắt chước hợp pháp các phong cách nghệ thuật đặc biệt hay không.
Tính liên tục của hình ảnh: Mảnh ghép còn thiếu trong quá trình làm phim AI cho đến nay
Vậy nếu tính nhất quán của ký tự dẫn đến sự phát triển lan truyền mạnh mẽ cho tính năng hình ảnh của OpenAI, thì điều tương tự có thể xảy ra với Runway trong video không?
Sự nhất quán giữa nhân vật và cảnh — duy trì các yếu tố hình ảnh giống nhau trên nhiều cảnh quay và góc quay — là điểm yếu của thế hệ video AI. Khi khuôn mặt của nhân vật thay đổi tinh tế giữa các lần cắt hoặc một yếu tố nền biến mất mà không có lời giải thích, bản chất nhân tạo của nội dung sẽ ngay lập tức trở nên rõ ràng với người xem.
Thách thức bắt nguồn từ cách các mô hình này hoạt động ở cấp độ cơ bản. Các trình tạo AI trước đây coi mỗi khung hình là một nhiệm vụ sáng tạo riêng biệt, chỉ có các kết nối lỏng lẻo giữa chúng. Hãy tưởng tượng việc yêu cầu một căn phòng đầy nghệ sĩ vẽ một khung hình của một bộ phim mà không nhìn thấy những gì xảy ra trước hoặc sau đó — kết quả sẽ không liền mạch về mặt thị giác.
Gen-4 của Runway dường như đã giải quyết được vấn đề này bằng cách tạo ra thứ giống như một bộ nhớ liên tục về các yếu tố trực quan. Khi một nhân vật, vật thể hoặc môi trường được thiết lập, hệ thống có thể hiển thị nó từ các góc độ khác nhau trong khi vẫn duy trì các thuộc tính cốt lõi của nó. Đây không chỉ là một cải tiến về mặt kỹ thuật; mà là sự khác biệt giữa việc tạo ra các đoạn trích trực quan thú vị và kể những câu chuyện thực tế.
Theo tài liệu của Runway, Gen-4 cho phép người dùng cung cấp hình ảnh tham chiếu về các đối tượng và mô tả bố cục mà họ muốn, với AI tạo ra các đầu ra nhất quán từ các góc độ khác nhau. Công ty tuyên bố mô hình có thể tạo video với chuyển động chân thực trong khi vẫn duy trì tính nhất quán của chủ thể, đối tượng và phong cách.
Để giới thiệu khả năng của mô hình, Runway đã phát hành một số phim ngắn được tạo hoàn toàn bằng Gen-4. Một bộ phim, “ New York is a Zoo ,” trình bày hiệu ứng hình ảnh của mô hình bằng cách đặt các loài động vật thực tế vào bối cảnh điện ảnh của New York. Một bộ phim khác, có tựa đề “ The Retrieval ,” kể về những nhà thám hiểm đang tìm kiếm một bông hoa bí ẩn và được sản xuất trong vòng chưa đầy một tuần.
Từ hoạt hình khuôn mặt đến người mẫu thế giới: Sự phát triển của công nghệ làm phim AI của Runway
Gen-4 được xây dựng dựa trên các công cụ trước đây của Runway. Vào tháng 10, công ty đã phát hành Act-One , một tính năng cho phép các nhà làm phim ghi lại biểu cảm khuôn mặt từ video trên điện thoại thông minh và chuyển chúng sang các nhân vật do AI tạo ra. Tháng sau, Runway đã bổ sung các điều khiển máy ảnh giống 3D tiên tiến vào mẫu Gen-3 Alpha Turbo, cho phép người dùng phóng to và thu nhỏ các cảnh trong khi vẫn giữ nguyên hình dạng nhân vật.
Quỹ đạo này cho thấy tầm nhìn chiến lược của Runway. Trong khi các đối thủ cạnh tranh tập trung vào việc tạo ra những hình ảnh hoặc clip đơn lẻ thực tế hơn bao giờ hết, Runway đã lắp ráp các thành phần của một quy trình sản xuất kỹ thuật số hoàn chỉnh. Cách tiếp cận này có vẻ giống với cách các nhà làm phim thực tế làm việc hơn — giải quyết các vấn đề về hiệu suất, phạm vi phủ sóng và tính liên tục của hình ảnh như những thách thức có sự kết nối với nhau thay vì những rào cản kỹ thuật riêng lẻ.
Sự phát triển từ các công cụ hoạt hình khuôn mặt đến các mô hình thế giới nhất quán cho thấy Runway hiểu rằng làm phim hỗ trợ AI cần tuân theo logic của sản xuất truyền thống để thực sự hữu ích. Đó là sự khác biệt giữa việc tạo bản demo công nghệ và xây dựng các công cụ mà các chuyên gia thực sự có thể kết hợp vào quy trình làm việc của họ.
Cuộc chiến video AI trị giá hàng tỷ đô la đang nóng lên
Những tác động tài chính là đáng kể đối với Runway, công ty được cho là đang huy động một vòng tài trợ mới sẽ định giá công ty ở mức 4 tỷ đô la. Theo báo cáo tài chính, công ty khởi nghiệp này đặt mục tiêu đạt doanh thu hàng năm là 300 triệu đô la trong năm nay sau khi ra mắt các sản phẩm mới và API cho các mô hình tạo video của mình.
Runway đã theo đuổi quan hệ đối tác với Hollywood, đảm bảo một thỏa thuận với Lionsgate để tạo ra một mô hình tạo video AI tùy chỉnh dựa trên danh mục hơn 20.000 tựa phim của hãng phim. Công ty cũng đã thành lập Quỹ Hundred Film , cung cấp cho các nhà làm phim tới 1 triệu đô la để sản xuất phim bằng AI.
Runway giải thích trên trang web của quỹ rằng: “Chúng tôi tin rằng những câu chuyện hay nhất vẫn chưa được kể, nhưng các cơ chế tài trợ truyền thống thường bỏ qua những tầm nhìn mới và đang nổi lên trong hệ sinh thái ngành rộng lớn hơn”.
Tuy nhiên, công nghệ này gây ra mối lo ngại cho các chuyên gia trong ngành công nghiệp phim ảnh. Một nghiên cứu năm 2024 do Animation Guild ủy quyền phát hiện ra rằng 75% các công ty sản xuất phim đã áp dụng AI đã cắt giảm, hợp nhất hoặc loại bỏ việc làm. Nghiên cứu dự đoán rằng hơn 100.000 việc làm trong ngành giải trí tại Hoa Kỳ sẽ bị ảnh hưởng bởi AI tạo ra vào năm 2026.
Các câu hỏi về bản quyền theo sau sự bùng nổ sáng tạo của AI
Giống như các công ty AI khác, Runway phải đối mặt với sự giám sát pháp lý đối với dữ liệu đào tạo của mình. Công ty hiện đang tự bảo vệ mình trong một vụ kiện do các nghệ sĩ đệ đơn, những người cáo buộc tác phẩm có bản quyền của họ đã được sử dụng để đào tạo các mô hình AI mà không được phép. Runway đã trích dẫn học thuyết sử dụng hợp lý làm biện hộ của mình, mặc dù tòa án vẫn chưa đưa ra phán quyết chắc chắn về việc áp dụng luật bản quyền này.
Cuộc tranh luận về bản quyền đã trở nên căng thẳng hơn vào tuần trước với tính năng Studio Ghibli của OpenAI , cho phép người dùng tạo hình ảnh theo phong cách đặc trưng của studio hoạt hình Hayao Miyazaki mà không cần sự cho phép rõ ràng. Không giống như OpenAI, từ chối tạo hình ảnh theo phong cách của nghệ sĩ còn sống nhưng cho phép các phong cách của studio, Runway đã không công khai nêu chi tiết các chính sách của mình về việc bắt chước phong cách.
Sự phân biệt này ngày càng trở nên tùy tiện khi các mô hình AI trở nên tinh vi hơn. Ranh giới giữa việc học hỏi từ các truyền thống nghệ thuật rộng lớn và sao chép phong cách của những người sáng tạo cụ thể đã trở nên mờ nhạt đến mức gần như vô hình. Khi một AI có thể bắt chước hoàn hảo ngôn ngữ hình ảnh mà Miyazaki mất hàng thập kỷ để phát triển, thì việc chúng ta yêu cầu nó sao chép xưởng phim hay chính nghệ sĩ có quan trọng không?
Khi được hỏi về nguồn dữ liệu đào tạo, Runway đã từ chối cung cấp thông tin chi tiết, với lý do lo ngại về cạnh tranh. Sự thiếu minh bạch này đã trở thành thông lệ chuẩn mực trong số các nhà phát triển AI nhưng vẫn là điểm gây tranh cãi đối với những người sáng tạo.
Các công cụ đã có, nhưng chúng ta sẽ kể những câu chuyện gì?
Khi các công ty tiếp thị, nhà sáng tạo nội dung giáo dục và nhóm truyền thông doanh nghiệp khám phá cách các công cụ như Gen-4 có thể hợp lý hóa quá trình sản xuất video, câu hỏi chuyển từ khả năng kỹ thuật sang ứng dụng sáng tạo.
Đối với các nhà làm phim, công nghệ này vừa là cơ hội vừa là sự gián đoạn. Những nhà sáng tạo độc lập có thể tiếp cận các khả năng về hiệu ứng hình ảnh trước đây chỉ có ở các hãng phim lớn, trong khi các chuyên gia về VFX và hoạt hình truyền thống phải đối mặt với tương lai không chắc chắn.
Sự thật khó chịu là những hạn chế về mặt kỹ thuật chưa bao giờ là thứ ngăn cản hầu hết mọi người làm ra những bộ phim hấp dẫn. Khả năng duy trì tính liên tục về mặt hình ảnh sẽ không đột nhiên tạo ra một thế hệ thiên tài kể chuyện. Tuy nhiên, điều mà nó có thể làm là loại bỏ đủ sự cản trở khỏi quy trình để nhiều người có thể thử nghiệm với cách kể chuyện bằng hình ảnh mà không cần đào tạo chuyên sâu hoặc thiết bị đắt tiền.
Có lẽ khía cạnh sâu sắc nhất của Gen-4 không phải là những gì nó có thể tạo ra, mà là những gì nó gợi ý về mối quan hệ của chúng ta với phương tiện truyền thông trực quan trong tương lai. Chúng ta đang bước vào một kỷ nguyên mà nút thắt trong sản xuất không phải là kỹ năng kỹ thuật hay ngân sách, mà là trí tưởng tượng và mục đích. Trong một thế giới mà bất kỳ ai cũng có thể tạo ra bất kỳ hình ảnh nào họ có thể mô tả, câu hỏi quan trọng trở thành: điều gì đáng để thể hiện?
Khi chúng ta bước vào kỷ nguyên mà việc tạo ra một bộ phim chỉ cần một hình ảnh tham khảo và một lời nhắc, câu hỏi cấp bách nhất không phải là liệu AI có thể tạo ra những video hấp dẫn hay không, mà là liệu chúng ta có thể tìm ra điều gì đó có ý nghĩa để nói khi chúng ta có những công cụ để nói bất cứ điều gì trong tầm tay hay không.