'Điên rồ': OpenAI giới thiệu công nghệ tạo hình ảnh gốc GPT-4o và nó đã khiến người dùng phải trầm trồ

Không giống như mô hình hình ảnh AI tạo sinh trước đây có trong ChatGPT — DALL-E 3 của OpenAI , một mô hình biến áp khuếch tán cổ điển được đào tạo để tái tạo hình ảnh từ lời nhắc văn bản bằng cách loại bỏ nhiễu khỏi pixel — trình tạo hình ảnh mới này là một phần của cùng một mô hình tạo ra văn bản và mã, vì OpenAI đã đào tạo toàn bộ mô hình để hiểu tất cả các dạng phương tiện này cùng một lúc.

Chủ tịch OpenAI Greg Brockman đã từng xem trước khả năng gốc này của GPT-4o từ tháng 5 năm 2024, nhưng vì những lý do vẫn chưa được công khai, công ty đã giữ lại nó cho đến tận bây giờ — sau khi phát hành công khai những gì mà nhiều người dùng AI thành thạo coi là tính năng tương tự từ Google AI Studio với mô hình Thử nghiệm Gemini 2 Flash.

Điều này đã tạo ra một trình tạo hình ảnh có chất lượng cao hơn nhiều, tạo ra những hình ảnh chân thực hơn và văn bản chính xác hơn, và nó đã gây ấn tượng với người dùng — một trong số họ gọi chất lượng này là ” điên rồ “.

Tương tự như vậy (ý định chơi chữ), OpenAI vẫn chưa nói chính xác khả năng tạo hình ảnh của GPT-4o được đào tạo trên dữ liệu nào — và xét theo lịch sử của công ty và các nhà cung cấp mô hình khác, có khả năng nó bao gồm nhiều tác phẩm nghệ thuật được lấy từ web, một số trong đó có lẽ là có bản quyền, điều này có thể khiến các nghệ sĩ đằng sau chúng tức giận.

Mang tính năng tạo hình ảnh đến ChatGPT và Sora

OpenAI từ lâu đã hướng đến mục tiêu biến việc tạo hình ảnh thành khả năng cốt lõi của các mô hình AI. Với GPT-4o, giờ đây người dùng có thể tạo hình ảnh trực tiếp trong ChatGPT, tinh chỉnh chúng thông qua cuộc trò chuyện và điều chỉnh chi tiết ngay lập tức.

Mô hình này cũng tích hợp vào Sora, nền tảng tạo video của OpenAI, giúp mở rộng hơn nữa khả năng đa phương thức.

Trong thông báo trên X, OpenAI xác nhận rằng chức năng tạo hình ảnh của GPT-4o được thiết kế để:

Hiển thị chính xác văn bản trong hình ảnh, cho phép tạo biển báo, thực đơn, lời mời và đồ họa thông tin.
Thực hiện chính xác các lời nhắc phức tạp, duy trì độ trung thực cao ngay cả trong các sáng tác chi tiết.
Xây dựng dựa trên hình ảnh và văn bản trước đó, đảm bảo tính nhất quán về mặt hình ảnh trong nhiều tương tác.
Hỗ trợ nhiều phong cách nghệ thuật khác nhau, từ chủ nghĩa siêu thực đến minh họa cách điệu.

Người dùng có thể mô tả hình ảnh trong ChatGPT, nêu rõ các chi tiết như tỷ lệ khung hình, bảng màu (mã hex) hoặc độ trong suốt và GPT-4o sẽ tạo hình ảnh đó trong vòng một phút.

Như chuyên gia tư vấn AI độc lập Allie K. Miller đã viết trên X, đây là “một bước tiến lớn trong việc tạo văn bản ” và là mô hình tạo hình ảnh AI “tốt nhất” mà bà từng thấy.

Các khả năng chính và trường hợp sử dụng

GPT-4o được thiết kế để tạo ra hình ảnh không chỉ đẹp mắt mà còn thiết thực. Một số ứng dụng chính bao gồm:

Thiết kế & Xây dựng thương hiệu – Tạo logo, áp phích và quảng cáo với vị trí văn bản chính xác.
Giáo dục & Hình ảnh hóa – Tạo sơ đồ khoa học, đồ họa thông tin và hình ảnh lịch sử để học tập.
Phát triển trò chơi – Duy trì tính nhất quán của nhân vật qua các lần thiết kế khác nhau.
Tiếp thị & Tạo nội dung – Tạo nội dung truyền thông xã hội, lời mời sự kiện và hình ảnh minh họa kỹ thuật số phù hợp với nhu cầu của thương hiệu.

GPT-4o cải thiện hình ảnh tạo ra như thế nào so với DALL-E

Theo chủ đề chính thức của OpenAI trên X, GPT-4o giới thiệu một số cải tiến so với các mô hình trước đó:

Tích hợp văn bản tốt hơn: Không giống như các mô hình AI trước đây gặp khó khăn với văn bản dễ đọc và được đặt đúng vị trí, GPT-4o hiện có thể nhúng chính xác các từ vào hình ảnh.
Hiểu biết ngữ cảnh nâng cao: GPT-4o tận dụng lịch sử trò chuyện, cho phép người dùng tinh chỉnh hình ảnh theo cách tương tác và duy trì tính nhất quán qua nhiều thế hệ.
Cải thiện khả năng liên kết nhiều đối tượng: Trong khi các mô hình trước đây gặp khó khăn trong việc định vị chính xác nhiều đối tượng riêng biệt trong một cảnh, thì giờ đây GPT-4o có thể xử lý cùng lúc tới 10-20 đối tượng.
Chuyển đổi phong cách linh hoạt: Mô hình có thể tạo hoặc chuyển đổi hình ảnh thành nhiều phong cách khác nhau, từ bản phác thảo vẽ tay đến ảnh chân thực có độ phân giải cao.

Hạn chế

Mặc dù có nhiều tiến bộ, GPT-4o vẫn còn một số thách thức đã biết:

Sự cố cắt xén: Những hình ảnh lớn, chẳng hạn như áp phích, đôi khi có thể bị cắt xén quá sát.
Độ chính xác của văn bản trong các chữ viết không phải tiếng Latin: Một số ký tự không phải tiếng Anh có thể không hiển thị chính xác.
Giữ lại chi tiết trong văn bản nhỏ: Văn bản có nhiều chi tiết hoặc phông chữ nhỏ có thể mất đi độ rõ nét.
Độ chính xác khi chỉnh sửa: Việc chỉnh sửa các phần cụ thể của hình ảnh có thể vô tình ảnh hưởng đến các yếu tố khác.

OpenAI đang tích cực giải quyết những vấn đề này thông qua việc cải tiến mô hình liên tục.

Các biện pháp an toàn và dán nhãn

Là một phần trong cam kết của OpenAI về phát triển AI có trách nhiệm, tất cả hình ảnh do GPT-4o tạo ra đều bao gồm siêu dữ liệu C2PA, cho phép người dùng xác minh nguồn gốc AI của họ.

Hơn nữa, OpenAI đã xây dựng một công cụ tìm kiếm nội bộ để giúp phát hiện hình ảnh do AI tạo ra.

Các biện pháp bảo vệ nghiêm ngặt được áp dụng để chặn nội dung có hại và ngăn chặn việc sử dụng sai mục đích, chẳng hạn như cấm hình ảnh khiêu dâm, lừa dối hoặc có hại.

OpenAI cũng đảm bảo rằng hình ảnh có người thật sẽ phải tuân theo những hạn chế chặt chẽ hơn.

Giám đốc điều hành của OpenAI, Sam Altman, mô tả bản phát hành này là “cột mốc mới cho sự tự do sáng tạo”, nhấn mạnh rằng người dùng sẽ có thể tạo ra nhiều hình ảnh trực quan, trong khi OpenAI quan sát và tinh chỉnh phương pháp tiếp cận của mình dựa trên cách sử dụng trong thế giới thực.

Khi hình ảnh do AI tạo ra ngày càng chính xác và dễ tiếp cận hơn, GPT-4o đại diện cho một bước tiến đáng kể trong việc biến công nghệ chuyển văn bản thành hình ảnh thành một công cụ chính thống phục vụ cho mục đích giao tiếp, sáng tạo và năng suất.

‘Điên rồ’: OpenAI giới thiệu công nghệ tạo hình ảnh gốc GPT-4o và nó đã khiến người dùng phải trầm trồ

Mang tính năng tạo hình ảnh đến ChatGPT và Sora

Các khả năng chính và trường hợp sử dụng

GPT-4o cải thiện hình ảnh tạo ra như thế nào so với DALL-E

Hạn chế

Các biện pháp an toàn và dán nhãn

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi