Trước đây, người dùng chỉ được giới hạn trong việc nhập lời nhắc văn bản và đính kèm hình ảnh khác để giúp hướng dẫn các thế hệ (mô hình có thể kết hợp nhiều hình ảnh do người dùng tải lên và đính kèm, bao gồm cả các thế hệ Midjourney khác, để ảnh hưởng đến phong cách và chủ đề của các thế hệ mới).
Bây giờ, người dùng chỉ cần nói to trên trang web alpha của Midjourney ( alpha.midjourney.com ) — miễn là họ có micrô được cắm/bật/kết nối với máy tính (hoặc sử dụng thiết bị kết nối mạng có đầu vào âm thanh, chẳng hạn như tai nghe hoặc điện thoại thông minh) — và mô hình sẽ lắng nghe và tạo ra lời nhắc văn bản riêng dựa trên mô tả âm thanh do người dùng nói, từ đó tạo ra hình ảnh.
Không rõ liệu Midjourney có tạo ra một mô hình nhập giọng nói mới (chuyển giọng nói thành văn bản) từ đầu hay đang sử dụng phiên bản tinh chỉnh hoặc phiên bản có sẵn của một nhà cung cấp khác như ElevenLabs hoặc OpenAI. Tôi đã hỏi người sáng lập Midjourney, David Holz trên X , nhưng ông vẫn chưa trả lời.
Sử dụng Chế độ nháp và Nhập giọng nói đàm thoại để nhắc nhở trong trạng thái dòng chảy
Đi đôi với phương pháp nhập liệu này là “Chế độ nháp” mới, có khả năng tạo ra hình ảnh nhanh hơn Midjourney v6.1, phiên bản tiền nhiệm gần nhất, thường chỉ mất chưa đầy một phút hoặc thậm chí là 30 giây trong một số trường hợp.
Mặc dù chất lượng hình ảnh ban đầu thấp hơn v6.1, nhưng người dùng có thể nhấp vào nút “nâng cao” hoặc “thay đổi” nằm bên phải mỗi thế hệ để hiển thị lại bản nháp ở chất lượng đầy đủ.

Ý tưởng là người dùng sẽ vui vẻ sử dụng cả hai cùng nhau — trên thực tế, bạn cần bật “Chế độ nháp” để kích hoạt đầu vào âm thanh — để bước vào trạng thái liền mạch hơn của bản phác thảo sáng tạo với mô hình, dành ít thời gian hơn cho việc tinh chỉnh ngôn ngữ cụ thể của lời nhắc và nhiều thời gian hơn cho việc xem các thế hệ mới, phản ứng với chúng theo thời gian thực và điều chỉnh hoặc tinh chỉnh chúng khi cần một cách tự nhiên và nhanh chóng hơn chỉ bằng cách nói ra suy nghĩ của bạn với mô hình.
“Làm cho giao diện này trông chi tiết hơn, tối hơn, sáng hơn, chân thực hơn, năng động hơn, sống động hơn” v.v. là một số hướng dẫn mà người dùng có thể cung cấp thông qua giao diện âm thanh mới để đáp ứng nhu cầu của nhiều thế hệ nhằm tạo ra giao diện mới, được điều chỉnh phù hợp hơn với tầm nhìn sáng tạo của họ.
Bắt đầu với Midjourney v7
Để vào các chế độ này, bắt đầu với tính năng “Bản nháp” mới, trước tiên người dùng phải vượt qua một rào cản mới: Tính năng cá nhân hóa của Midjourney.
Mặc dù tính năng này đã được giới thiệu trước đó trên Midjourney v6 vào tháng 6 năm 2024 , nhưng nó là tùy chọn, cho phép người dùng tạo “phong cách” cá nhân có thể áp dụng cho tất cả các thế hệ sau này bằng cách xếp hạng 200 cặp hình ảnh (chọn ảnh nào mà người dùng thích nhất) thông qua trang web Midjourney. Sau đó, người dùng có thể bật một phong cách phù hợp với hình ảnh mà họ thích nhất trong quá trình xếp hạng từng cặp.
Hiện tại, Midjourney v7 yêu cầu người dùng tạo một phong cách cá nhân mới dành riêng cho v7 trước khi sử dụng.

Sau khi người dùng thực hiện thao tác đó, họ sẽ được đưa đến bảng điều khiển trang web Midjourney Alpha quen thuộc, nơi họ có thể nhấp vào “Tạo” ở thanh bên trái để mở tab tạo.

Sau đó, trên thanh nhập lời nhắc ở trên cùng, người dùng có thể nhấp vào nút “P” mới ở bên phải thanh để bật chế độ cá nhân hóa của họ.

Người sáng lập và lãnh đạo Midjourney, David Holz đã xác nhận với VentureBeat trên X rằng các kiểu cá nhân hóa cũ hơn từ v6 cũng có thể được chọn, nhưng không phải là “bảng tâm trạng” riêng biệt — các kiểu được tạo thành từ các bộ sưu tập hình ảnh do người dùng tải lên — mặc dù tài khoản X của Midjourney đã tuyên bố riêng rằng tính năng này cũng sẽ sớm quay trở lại . Tuy nhiên, tôi không thấy cơ hội để chọn kiểu v6 cũ hơn của mình.
Tuy nhiên, người dùng sau đó có thể nhấp vào nút “Chế độ nháp” mới ở bên phải nút Cá nhân hóa (cũng ở xa hơn về bên phải hộp nhập lời nhắc văn bản) để kích hoạt chế độ tạo hình ảnh nhanh hơn này.

Sau khi chọn bằng con trỏ, nó sẽ chuyển sang màu cam cho biết nó đã được bật và sau đó một nút mới có biểu tượng micrô sẽ xuất hiện ở bên phải nút này. Đây là chế độ nhắc nhở bằng giọng nói, người dùng có thể nhấp vào một lần nữa để kích hoạt.

Khi người dùng nhấn nút micrô này để vào chế độ nhắc nhở bằng giọng nói, họ sẽ thấy biểu tượng micrô chuyển từ màu trắng sang màu cam để cho biết micrô đang được bật và một đường dạng sóng sẽ xuất hiện ở bên phải micrô và bắt đầu nhấp nhô theo giọng nói của người dùng.


Sau đó, mô hình sẽ có thể nghe bạn và cũng sẽ nghe khi bạn nói xong. Trong thực tế, đôi khi tôi nhận được thông báo lỗi có nội dung “API thời gian thực đã ngắt kết nối”, nhưng việc dừng và khởi động lại chế độ nhập giọng nói và làm mới trang web thường xóa lỗi nhanh chóng.
Sau vài giây nói, Midjourney sẽ bắt đầu nhấp nháy một số cửa sổ từ khóa bên dưới hộp văn bản nhắc nhở ở trên cùng và cũng tạo ra một lời nhắc văn bản đầy đủ ở bên phải khi nó tạo ra một bộ 4 hình ảnh mới dựa trên những gì người dùng đã nói.

Sau đó, người dùng có thể tiếp tục sửa đổi các thế hệ mới này bằng cách nói chuyện lại với mô hình, bật và tắt chế độ giọng nói khi cần.
Đây là video demo nhanh về việc tôi sử dụng nó ngày hôm nay để tạo một số hình ảnh mẫu. Bạn sẽ thấy quy trình này không hoàn hảo, nhưng nó thực sự nhanh và cho phép trạng thái ngắt quãng hơn khi nhắc nhở, tinh chỉnh và nhận hình ảnh từ mô hình.
Nhiều tính năng mới hơn…nhưng cũng có nhiều tính năng và hạn chế còn thiếu so với v6/6.1
Midjourney v7 sẽ ra mắt với hai chế độ hoạt động: Turbo và Relax. Chế độ Turbo cung cấp hiệu suất cao với chi phí gấp đôi so với công việc v6 tiêu chuẩn, trong khi Chế độ Draft có chi phí bằng một nửa (về mặt công việc ). Chế độ tốc độ tiêu chuẩn hiện đang được phát triển và sẽ được phát hành sau khi được tối ưu hóa.
Khi ra mắt, các tính năng như nâng cấp, tô màu và tạo lại kết cấu sẽ tạm thời dựa vào mô hình v6. Midjourney có kế hoạch chuyển các chức năng này sang v7 trong các bản cập nhật trong tương lai.
Công ty cam kết phát triển thường xuyên trong hai tháng tới, với các bản cập nhật được lên lịch sau mỗi một đến hai tuần. Một bổ sung quan trọng sắp tới sẽ là hệ thống tham chiếu nhân vật và đối tượng mới được thiết kế dành riêng cho v7, các tính năng có trên các phiên bản cũ hơn của Midjourney bằng cách áp dụng các hậu tố nhắc nhở văn bản bí ẩn như –cref và –sref (cho style) để quản lý nhắc nhở văn bản của người dùng.
Midjourney có kế hoạch thu hút cộng đồng thông qua các không gian chia sẻ công khai và kênh phản hồi, đồng thời sẽ tổ chức phiên xếp hạng lộ trình để giúp ưu tiên các nỗ lực phát triển trong tương lai.
Midjourney nhấn mạnh rằng v7 là một mô hình hoàn toàn mới với những điểm mạnh và thách thức riêng. Người dùng được khuyến khích thử nghiệm các phong cách nhắc nhở khác nhau và báo cáo kinh nghiệm của họ để giúp tinh chỉnh nền tảng.
Phản ứng ban đầu khá trái chiều…khác xa với lời khen ngợi gần như nhất trí của các bản phát hành Midjourney trước đó
Trong khi hầu hết các phiên bản Midjourney cũ đều được đón nhận nồng nhiệt và ngưỡng mộ thì phản ứng ban đầu đối với v7 lại trái chiều hơn hẳn.
Mặc dù Midjourney đã cẩn thận gọi đây là bản phát hành “alpha” trên blog và phương tiện truyền thông xã hội , nhiều người dùng vẫn mong đợi một bước nhảy vọt lớn hơn về chất lượng hình ảnh và khả năng tuân thủ nhanh chóng (mức độ các thế hệ hình ảnh khớp với hướng dẫn cụ thể của người dùng bằng văn bản hoặc âm thanh tốt như thế nào), cũng như hy vọng cải thiện khả năng hiểu biết về giải phẫu của con người (đặc biệt là bàn tay, một vấn đề phổ biến về tạo hình ảnh AI) và tạo văn bản (đây cũng là vấn đề mà các mô hình hình ảnh gặp khó khăn, mặc dù Ideogram và trình tạo hình ảnh GPT-4o gốc của OpenAI dường như có độ chính xác nhất quán hơn nhiều so với Midjourney v7 dựa trên các báo cáo ban đầu của người dùng).
Như @freiboitar đã viết trên X :
“Phải nói rằng: hơi thất vọng.OpenAI đặt ra tiêu chuẩn quá cao. Nói chuyện với bộ tạo hình ảnh của bạn như thể nó là anh em của bạn? Tâm trí = bị thổi bay.
MJ7 trông "thực tế hơn". nhưng chúng ta có thực sự cần điều đó không?MJ + Magnific đã làm được rồi.
Có lẽ tôi nên tạm dừng đăng ký.”
“Vấn đề là v7 không thực sự giống v7. Nó giống v6.2 hơn”, người sáng lập Magnific AI Javi Lopez đăng trên X , trích dẫn bản chất có vẻ gia tăng của các bản cập nhật.
Thật vậy, Ethan Mollick , giáo sư Trường Kinh doanh Wharton Pennsylvania và là người có ảnh hưởng trong lĩnh vực AI, cũng lên tiếng: “Tôi thích các bản phát hành mới của họ nhưng vấn đề với phiên bản v7 (phải) mới phát hành hôm nay là phiên bản v6 (trái) đã thực sự tốt rồi”.
“Những lời nhắc giống hệt nhau từ v6 còn tệ hơn trong v7”, David Shapiro, người tự nhận là “người theo chủ nghĩa tối đa hóa AI” đã viết trên X.
“Tất cả các Favorites cũ đã trở nên quá cũ”, nghệ sĩ và nhạc sĩ @CaptainHaHaa cho biết : “Tay, Văn bản vẫn là vấn đề, không có cref, srefs đã bị hỏng. Nhưng không sao vì bạn có thể nói chuyện với nó trong khi nó làm bạn thất vọng”.
Những người khác thì dễ tha thứ hơn và vui mừng với thế hệ thử nghiệm đầu tiên của họ trên v7, với người dùng AI chuyên nghiệp Dreaming Tulpa nói rằng trên X, nó có “chất lượng hình ảnh tốt hơn” và “siêu nghệ thuật”.
Tương tự như vậy, nghệ sĩ và nhà thiết kế AI Tatiana Tsiguleva đã lên tiếng rằng Midjourney v7 là “bước tiến lớn về chất lượng!”
Tuy nhiên, vẫn còn quá sớm để nói về Midjourney v7 và phản ứng ban đầu có thể thay đổi theo cả hai hướng — hoặc là sự ngưỡng mộ hoặc là sự thất vọng với mô hình mới và các tính năng thiết kế. Hiện tại, bất kỳ ai có tài khoản Midjourney đều có thể bắt đầu sử dụng.