Thứ Hai, Tháng 6 16, 2025

Công nghệ tạo hình ảnh AI đa phương thức gốc của Google trong Gemini 2.0 Flash gây ấn tượng với khả năng chỉnh sửa nhanh, chuyển đổi phong cách

Đây là lần đầu tiên một công ty công nghệ lớn của Hoa Kỳ chuyển giao việc tạo hình ảnh đa phương thức trực tiếp trong một mô hình đến người tiêu dùng. Hầu hết các công cụ tạo hình ảnh AI khác đều là các mô hình khuếch tán (các mô hình dành riêng cho hình ảnh) được kết nối với các mô hình ngôn ngữ lớn (LLM), đòi hỏi một chút diễn giải giữa hai mô hình để có được hình ảnh mà người dùng yêu cầu trong lời nhắc văn bản. Đây là trường hợp của cả LLM Gemini trước đây của Google được kết nối với các mô hình khuếch tán Imagen của công ty và thiết lập trước đây (và vẫn còn, theo như chúng tôi biết) hiện tại của OpenAI về việc kết nối ChatGPT và nhiều LLM cơ bản khác nhau với mô hình khuếch tán DALL-E 3 của công ty.

Ngược lại, Gemini 2.0 Flash có thể tạo ra hình ảnh gốc trong cùng một mô hình mà người dùng nhập lời nhắc văn bản vào, về mặt lý thuyết cho phép có độ chính xác cao hơn và nhiều khả năng hơn — và những dấu hiệu ban đầu cho thấy điều này hoàn toàn đúng.

Gemini 2.0 Flash, lần đầu tiên được ra mắt vào tháng 12 năm 2024 nhưng không bật chức năng tạo hình ảnh gốc cho người dùng, tích hợp đầu vào đa phương thức, lý luận và hiểu ngôn ngữ tự nhiên để tạo hình ảnh cùng với văn bản.

Phiên bản thử nghiệm mới có sẵn, gemini-2.0-flash-exp, cho phép các nhà phát triển tạo hình ảnh minh họa, tinh chỉnh hình ảnh thông qua hội thoại và tạo ra hình ảnh chi tiết dựa trên kiến ​​thức thế giới.

Flash Gemini 2.0 cải thiện hình ảnh do AI tạo ra như thế nào

Trong bài đăng trên blog dành cho nhà phát triển được công bố sớm hơn hôm nay, Google đã nêu bật một số khả năng chính của tính năng tạo hình ảnh gốc của Gemini 2.0 Flash :

• Kể chuyện bằng văn bản và hình ảnh: Các nhà phát triển có thể sử dụng Gemini 2.0 Flash để tạo ra các câu chuyện minh họa trong khi vẫn duy trì tính nhất quán trong các nhân vật và bối cảnh. Mô hình này cũng phản hồi lại phản hồi, cho phép người dùng điều chỉnh câu chuyện hoặc thay đổi phong cách nghệ thuật.

• Chỉnh sửa hình ảnh hội thoại: AI hỗ trợ chỉnh sửa nhiều lượt , nghĩa là người dùng có thể tinh chỉnh hình ảnh theo từng lần bằng cách cung cấp hướng dẫn thông qua lời nhắc bằng ngôn ngữ tự nhiên. Tính năng này cho phép cộng tác theo thời gian thực và khám phá sáng tạo.

• Tạo hình ảnh dựa trên tri thức thế giới: Không giống như nhiều mô hình tạo hình ảnh khác, Gemini 2.0 Flash tận dụng khả năng lý luận rộng hơn để tạo ra hình ảnh có liên quan theo ngữ cảnh hơn. Ví dụ, nó có thể minh họa công thức nấu ăn bằng hình ảnh chi tiết phù hợp với các thành phần và phương pháp nấu ăn trong thế giới thực.

• Cải thiện khả năng hiển thị văn bản: Nhiều mô hình hình ảnh AI gặp khó khăn trong việc tạo chính xác văn bản dễ đọc trong hình ảnh, thường tạo ra lỗi chính tả hoặc ký tự bị bóp méo. Google báo cáo rằng Gemini 2.0 Flash vượt trội hơn các đối thủ cạnh tranh hàng đầu về khả năng hiển thị văn bản, khiến nó đặc biệt hữu ích cho quảng cáo, bài đăng trên mạng xã hội và lời mời.

Những ví dụ ban đầu cho thấy tiềm năng và triển vọng đáng kinh ngạc

Các nhân viên Google và một số người dùng AI thành thạo đã chia sẻ các ví dụ về khả năng tạo và chỉnh sửa hình ảnh mới được cung cấp thông qua bản thử nghiệm Gemini 2.0 Flash và chúng thực sự rất ấn tượng.

Nhà giáo dục về AI và công nghệ Paul Couvert chỉ ra rằng “Về cơ bản, bạn có thể chỉnh sửa bất kỳ hình ảnh nào bằng ngôn ngữ tự nhiên [biểu tượng cảm xúc lửa[. Không chỉ những hình ảnh bạn tạo bằng Gemini 2.0 Flash mà còn cả những hình ảnh hiện có”, cho thấy cách anh ấy tải ảnh lên và chỉnh sửa chúng chỉ bằng lời nhắc văn bản.

Người dùng @apolinario và @fofr đã chỉ ra cách bạn có thể tải ảnh chân dung lên và chỉnh sửa thành những bức ảnh hoàn toàn khác với các đạo cụ mới như một bát mì spaghetti, hoặc thay đổi hướng nhìn của đối tượng trong khi vẫn giữ nguyên hình ảnh với độ chính xác đáng kinh ngạc, hoặc thậm chí thu nhỏ lại và tạo ảnh toàn thân chỉ dựa trên ảnh chân dung.

Nhà nghiên cứu Robert Riachi của Google DeepMind đã trình bày cách mô hình có thể tạo ra hình ảnh theo phong cách pixel-art và sau đó tạo ra hình ảnh mới theo cùng phong cách đó dựa trên lời nhắc văn bản.

Trưởng nhóm sản phẩm Google AI Studio Logan Kilpatrick — trước đây làm việc tại OpenAI — đã nhấn mạnh sự thú vị và tiện ích của việc chỉnh sửa hình ảnh dựa trên trò chuyện, chia sẻ bản trình diễn về một chú dê con được dựng hình 3D trong một câu chuyện tương tác được tạo ra.

Tài khoản tin tức AI TestingCatalog News đã đưa tin về việc triển khai các khả năng đa phương thức của Gemini 2.0 Flash Experimental, lưu ý rằng Google là phòng thí nghiệm lớn đầu tiên triển khai tính năng này.

Người dùng @Angaisb_ hay còn gọi là “Angel” đã trình bày một ví dụ hấp dẫn về cách lời nhắc “thêm sốt sô-cô-la” có thể chỉnh sửa hình ảnh bánh sừng bò hiện có chỉ trong vài giây — cho thấy khả năng chỉnh sửa hình ảnh nhanh và chính xác của Gemini 2.0 Flash chỉ bằng cách trò chuyện qua lại với người mẫu.

YouTuber Theoretically Media chỉ ra rằng việc chỉnh sửa hình ảnh gia tăng này mà không tái tạo hoàn toàn là điều mà ngành công nghiệp AI đã dự đoán từ lâu, chứng minh rằng việc yêu cầu Gemini 2.0 Flash chỉnh sửa hình ảnh để giơ cánh tay của nhân vật lên trong khi vẫn giữ nguyên toàn bộ phần còn lại của hình ảnh là điều dễ dàng như thế nào.

Những phản ứng ban đầu này cho thấy các nhà phát triển và những người đam mê AI coi Gemini 2.0 Flash là một công cụ cực kỳ linh hoạt cho thiết kế lặp đi lặp lại, kể chuyện sáng tạo và chỉnh sửa hình ảnh hỗ trợ AI.

Việc triển khai nhanh chóng này cũng trái ngược với GPT-4o của OpenAI, bản xem trước khả năng tạo hình ảnh gốc vào tháng 5 năm 2024 — gần một năm trước — nhưng vẫn chưa phát hành tính năng này công khai—cho phép Google nắm bắt cơ hội dẫn đầu trong việc triển khai AI đa phương thức.

Như người dùng @chatgpt21 hay còn gọi là “Chris” đã chỉ ra trên X, trong trường hợp này, OpenAI đã “mất đi năm + dẫn đầu” mà nó có về khả năng này vì những lý do không rõ. Người dùng đã mời bất kỳ ai từ OpenAI bình luận về lý do.

Các bài kiểm tra của riêng tôi đã phát hiện ra một số hạn chế về kích thước tỷ lệ khung hình — dường như nó bị kẹt ở tỷ lệ 1:1 đối với tôi, mặc dù tôi đã yêu cầu chỉnh sửa trong văn bản — nhưng nó có thể chuyển hướng của các ký tự trong hình ảnh chỉ trong vài giây.

Một công cụ mới quan trọng dành cho các nhà phát triển và doanh nghiệp

Trong khi phần lớn các cuộc thảo luận ban đầu về khả năng tạo hình ảnh gốc của Gemini 2.0 Flash tập trung vào người dùng cá nhân và các ứng dụng sáng tạo, thì ý nghĩa của nó đối với các nhóm doanh nghiệp, nhà phát triển và kiến ​​trúc sư phần mềm lại rất đáng kể.

Thiết kế và tiếp thị hỗ trợ AI ở quy mô lớn : Đối với các nhóm tiếp thị và người sáng tạo nội dung, Gemini 2.0 Flash có thể đóng vai trò là giải pháp thay thế tiết kiệm chi phí cho quy trình thiết kế đồ họa truyền thống, tự động hóa việc tạo nội dung có thương hiệu, quảng cáo và hình ảnh truyền thông xã hội. Vì hỗ trợ hiển thị văn bản trong hình ảnh, nên có thể hợp lý hóa việc tạo quảng cáo, thiết kế bao bì và đồ họa quảng cáo, giảm sự phụ thuộc vào việc chỉnh sửa thủ công.

Công cụ dành cho nhà phát triển và quy trình làm việc AI được cải tiến: Đối với các CTO, CIO và kỹ sư phần mềm, việc tạo hình ảnh gốc có thể đơn giản hóa việc tích hợp AI vào các ứng dụng và dịch vụ. Bằng cách kết hợp đầu ra văn bản và hình ảnh trong một mô hình duy nhất, Gemini 2.0 Flash cho phép các nhà phát triển xây dựng:

  • Trợ lý thiết kế hỗ trợ AI tạo ra bản mô phỏng UI/UX hoặc nội dung ứng dụng.
  • Công cụ tài liệu tự động minh họa các khái niệm theo thời gian thực.
  • Nền tảng kể chuyện năng động, sử dụng AI dành cho truyền thông và giáo dục.

Vì mô hình này cũng hỗ trợ chỉnh sửa hình ảnh đàm thoại nên các nhóm có thể phát triển giao diện do AI điều khiển, nơi người dùng tinh chỉnh thiết kế thông qua đối thoại tự nhiên, giảm rào cản gia nhập cho người dùng không rành về kỹ thuật.

Khả năng mới cho phần mềm năng suất dựa trên AI : Đối với các nhóm doanh nghiệp xây dựng các công cụ năng suất hỗ trợ AI, Gemini 2.0 Flash có thể hỗ trợ các ứng dụng như:

  • Tạo bài thuyết trình tự động với các slide và hình ảnh do AI tạo ra.
  • Chú thích tài liệu pháp lý và kinh doanh bằng đồ họa thông tin do AI tạo ra.
  • Hình ảnh hóa thương mại điện tử, tạo mô hình sản phẩm động dựa trên mô tả.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »