OpenAI ra mắt o3 và o4-mini, các mô hình AI 'suy nghĩ bằng hình ảnh' và sử dụng các công cụ một cách tự động

Công ty có trụ sở tại San Francisco đã giới thiệu o3 và o4-mini , sản phẩm mới nhất trong “loạt o” các mô hình lý luận, mà họ tuyên bố là các mô hình thông minh và có khả năng nhất cho đến nay. Các hệ thống này có thể tích hợp hình ảnh trực tiếp vào quy trình lý luận của chúng, tìm kiếm trên web, chạy mã, phân tích tệp và thậm chí tạo hình ảnh trong một luồng tác vụ duy nhất.

“Có một số mô hình giống như một bước tiến định tính vào tương lai. GPT-4 là một trong số đó. Hôm nay cũng sẽ là một trong những ngày như vậy”, Greg Brockman, chủ tịch của OpenAI, cho biết trong một cuộc họp báo công bố bản phát hành. “Đây là những mô hình đầu tiên mà các nhà khoa học hàng đầu cho chúng tôi biết rằng họ tạo ra những ý tưởng mới lạ thực sự tốt và hữu ích”.

Các mô hình mới của OpenAI ‘suy nghĩ bằng hình ảnh’ để chuyển đổi cách giải quyết vấn đề trực quan

Đặc điểm nổi bật nhất của các mô hình mới này là khả năng “ suy nghĩ bằng hình ảnh ” — không chỉ nhìn thấy chúng mà còn thao tác và lý luận về chúng như một phần của quá trình giải quyết vấn đề.

“Họ không chỉ nhìn thấy hình ảnh — họ suy nghĩ bằng hình ảnh đó”, OpenAI cho biết trong một tuyên bố gửi tới VentureBeat. “Điều này mở ra một lớp giải quyết vấn đề mới kết hợp giữa lý luận trực quan và lý luận văn bản”.

Trong buổi trình diễn tại buổi họp báo, một nhà nghiên cứu đã trình bày cách o3 có thể phân tích một tấm áp phích vật lý từ một kỳ thực tập cách đây một thập kỷ, điều hướng các sơ đồ phức tạp của nó một cách độc lập và thậm chí xác định rằng kết quả cuối cùng không có trong chính tấm áp phích đó.

“Nó hẳn đã đọc, bạn biết đấy, ít nhất là khoảng 10 bài báo khác nhau trong vài giây đối với tôi,” Brandon McKenzie, một nhà nghiên cứu tại OpenAI làm việc về lý luận đa phương thức, cho biết trong bản demo. Ông ước tính nhiệm vụ này sẽ mất “nhiều ngày chỉ để tôi có thể tự mình lên tàu, quay lại dự án của mình, và sau đó có thể mất thêm vài ngày nữa, để thực sự tìm kiếm trong tài liệu.”

Khả năng AI thao tác hình ảnh trong quá trình suy luận của nó — phóng to các chi tiết, xoay sơ đồ hoặc cắt bỏ các yếu tố không cần thiết — đại diện cho một phương pháp tiếp cận mới mà các nhà phân tích trong ngành cho rằng có thể cách mạng hóa các lĩnh vực từ nghiên cứu khoa học đến giáo dục.

Vượt ra ngoài các mô hình AI: Cách o3 và o4-mini hoạt động như các hệ thống AI hoàn chỉnh với tích hợp công cụ tiên tiến

Các giám đốc điều hành của OpenAI nhấn mạnh rằng những bản phát hành này không chỉ đại diện cho các mô hình được cải tiến mà còn là các hệ thống AI hoàn chỉnh có thể sử dụng độc lập và kết nối nhiều công cụ với nhau khi giải quyết vấn đề.

Công ty giải thích trong thông cáo báo chí rằng: “Chúng tôi đã đào tạo họ cách sử dụng các công cụ thông qua phương pháp học tăng cường – không chỉ dạy họ cách sử dụng công cụ mà còn cách lý giải thời điểm sử dụng chúng”.

Greg Brockman đã nêu bật khả năng sử dụng công cụ mở rộng của các mô hình: “Họ thực sự sử dụng các công cụ này trong chuỗi suy nghĩ của mình khi họ đang cố gắng giải quyết một vấn đề khó. Ví dụ, chúng tôi đã thấy o3 sử dụng khoảng 600 lệnh gọi công cụ liên tiếp để cố gắng giải quyết một nhiệm vụ thực sự khó khăn.”

Khả năng này cho phép các mô hình thực hiện các quy trình làm việc phức tạp, nhiều bước mà không cần sự chỉ đạo liên tục của con người. Ví dụ, nếu được hỏi về các mô hình sử dụng năng lượng trong tương lai ở California, AI có thể tìm kiếm dữ liệu tiện ích trên web, viết mã Python để phân tích dữ liệu đó, tạo hình ảnh trực quan và tạo báo cáo toàn diện — tất cả như một quy trình lưu động duy nhất.

OpenAI vượt lên dẫn trước các đối thủ cạnh tranh với hiệu suất phá kỷ lục trên các tiêu chuẩn AI quan trọng

OpenAI tuyên bố o3 thiết lập các chuẩn mực tiên tiến mới trên các biện pháp chính về khả năng AI, bao gồm Codeforces , SWE-bench và MMMU . Trong các đánh giá của các chuyên gia bên ngoài, o3 được báo cáo là mắc ít hơn 20 phần trăm lỗi lớn so với người tiền nhiệm của nó trong các nhiệm vụ khó khăn, thực tế.

Mô hình o4-mini nhỏ hơn được tối ưu hóa về tốc độ và hiệu quả chi phí trong khi vẫn duy trì khả năng suy luận mạnh mẽ. Trong cuộc thi toán học AIME 2025 , o4-mini đạt 99,5 phần trăm khi được tiếp cận với trình thông dịch Python.

Mark Chen, người đứng đầu bộ phận nghiên cứu của OpenAI, cho biết trong buổi họp báo: “Tôi thực sự tin rằng với bộ mô hình này, o3 và o4-mini, chúng ta sẽ thấy nhiều tiến bộ hơn nữa”.

Thời điểm phát hành này rất quan trọng, chỉ diễn ra hai ngày sau khi OpenAI công bố mô hình GPT-4.1 , mô hình này rất xuất sắc trong các tác vụ mã hóa. Chuỗi thông báo liên tiếp nhanh chóng báo hiệu sự tăng tốc trong bối cảnh AI cạnh tranh, nơi OpenAI phải đối mặt với áp lực ngày càng tăng từ các mô hình Gemini của Google, Claude của Anthropic và xAI của Elon Musk .

Tháng trước, OpenAI đã đóng vòng gọi vốn công nghệ tư nhân lớn nhất trong lịch sử, huy động được 40 tỷ đô la với mức định giá 300 tỷ đô la. Công ty cũng được cho là đang cân nhắc xây dựng mạng xã hội riêng , có khả năng cạnh tranh với nền tảng X của Elon Musk và để đảm bảo nguồn dữ liệu đào tạo độc quyền.

Các mô hình mới của OpenAI chuyển đổi kỹ thuật phần mềm như thế nào với khả năng điều hướng mã chưa từng có

Một lĩnh vực mà các mô hình mới đặc biệt xuất sắc là kỹ thuật phần mềm. Brockman lưu ý trong buổi họp báo rằng o3 “thực sự tốt hơn tôi trong việc điều hướng qua cơ sở mã OpenAI của chúng tôi, điều này thực sự hữu ích.”

Trong thông báo, OpenAI cũng giới thiệu Codex CLI , một tác nhân mã hóa nhẹ chạy trực tiếp trên thiết bị đầu cuối của người dùng. Công cụ nguồn mở này cho phép các nhà phát triển tận dụng khả năng suy luận của mô hình cho các tác vụ mã hóa, với sự hỗ trợ cho ảnh chụp màn hình và bản phác thảo.

“Chúng tôi cũng đang chia sẻ một thử nghiệm mới: Codex CLI, một tác nhân mã hóa nhẹ mà bạn có thể chạy từ thiết bị đầu cuối của mình”, công ty thông báo. “Bạn có thể nhận được lợi ích của lý luận đa phương thức từ dòng lệnh bằng cách chuyển ảnh chụp màn hình hoặc bản phác thảo có độ trung thực thấp đến mô hình, kết hợp với quyền truy cập vào mã của bạn cục bộ”.

Để khuyến khích áp dụng, OpenAI đang triển khai sáng kiến trị giá 1 triệu đô la để hỗ trợ các dự án sử dụng mô hình Codex CLI và OpenAI, với các khoản tài trợ có giá trị theo từng đợt 25.000 đô la dưới dạng tín dụng API.

Bên trong các giao thức an toàn nâng cao của OpenAI: Cách công ty bảo vệ chống lại việc sử dụng sai mục đích AI

OpenAI báo cáo đang tiến hành thử nghiệm an toàn mở rộng trên các mô hình mới, đặc biệt tập trung vào khả năng từ chối các yêu cầu có hại. Các biện pháp an toàn của công ty bao gồm xây dựng lại hoàn toàn dữ liệu đào tạo an toàn và phát triển các biện pháp giảm thiểu ở cấp độ hệ thống để đánh dấu các lời nhắc nguy hiểm.

Công ty tuyên bố: “Chúng tôi đã thử nghiệm cả hai mô hình bằng chương trình an toàn nghiêm ngặt nhất từ trước đến nay”, đồng thời lưu ý rằng cả o3 và o4-mini đều nằm dưới ngưỡng “Cao” của OpenAI về các rủi ro tiềm ẩn trong khả năng tự cải thiện AI, an ninh mạng và sinh học.

Trong buổi họp báo, các nhà nghiên cứu Wenda và Ananya của OpenAI đã trình bày kết quả chuẩn chi tiết, lưu ý rằng các mô hình mới đã trải qua khối lượng tính toán đào tạo lớn hơn 10 lần so với các phiên bản trước để đạt được khả năng của chúng.

Khi nào và làm thế nào bạn có thể truy cập o3 và o4-mini: Dòng thời gian triển khai và chiến lược thương mại

Các mô hình mới có sẵn ngay cho người dùng ChatGPT Plus , Pro và Team , với khách hàng Enterprise và Education sẽ có quyền truy cập vào tuần tới. Người dùng miễn phí có thể dùng thử o4-mini bằng cách chọn “Think” trong trình soạn thảo trước khi gửi truy vấn.

Các nhà phát triển có thể truy cập cả hai mô hình thông qua API Hoàn thành trò chuyện và API Phản hồi của OpenAI , mặc dù một số tổ chức sẽ cần xác minh để truy cập chúng.

Bản phát hành này đại diện cho một cơ hội thương mại quan trọng cho OpenAI, vì các mô hình có vẻ vừa có khả năng hơn vừa tiết kiệm chi phí hơn so với các phiên bản trước. “Ví dụ, trong cuộc thi toán AIME năm 2025, ranh giới hiệu suất-chi phí của o3 được cải thiện đáng kể so với o1 và tương tự như vậy, ranh giới của o4-mini được cải thiện đáng kể so với o3-mini”, công ty tuyên bố.

Tương lai của AI: Cách OpenAI kết nối lý luận và hội thoại cho các hệ thống thế hệ tiếp theo

Các nhà phân tích ngành xem những bản phát hành này là một phần của sự hội tụ rộng hơn về khả năng của AI, với các mô hình ngày càng kết hợp khả năng lý luận chuyên biệt với khả năng giao tiếp tự nhiên và sử dụng công cụ.

OpenAI lưu ý trong bản phát hành của mình rằng: “Các bản cập nhật hôm nay phản ánh hướng đi của các mô hình của chúng tôi: chúng tôi đang hội tụ các khả năng suy luận chuyên biệt của dòng o với nhiều khả năng đàm thoại tự nhiên hơn và khả năng sử dụng công cụ của dòng GPT”.

Ethan Mollick, phó giáo sư tại Trường Wharton, người nghiên cứu về việc áp dụng AI, đã mô tả o3 là ”một mô hình rất mạnh, nhưng vẫn còn nhiều khiếm khuyết” trong một bài đăng trên mạng xã hội sau thông báo.

Khi sự cạnh tranh trong lĩnh vực AI ngày càng gia tăng, với việc Google, Anthropic và các công ty khác phát hành các mô hình ngày càng mạnh mẽ, việc OpenAI tập trung vào cả khả năng lập luận và sử dụng công cụ thực tế cho thấy một chiến lược nhằm duy trì vị trí dẫn đầu bằng cách cung cấp cả trí thông minh và tiện ích.

Với o3 và o4-mini, OpenAI đã vượt qua ngưỡng mà máy móc bắt đầu nhận thức hình ảnh theo cách con người làm—xử lý thông tin thị giác như một phần không thể thiếu trong quá trình suy nghĩ của chúng thay vì chỉ phân tích những gì chúng nhìn thấy. Sự thay đổi này từ nhận dạng thụ động sang lý luận thị giác chủ động cuối cùng có thể chứng minh là quan trọng hơn bất kỳ điểm chuẩn nào, đại diện cho thời điểm AI bắt đầu thực sự nhìn thế giới qua đôi mắt suy nghĩ.

OpenAI ra mắt o3 và o4-mini, các mô hình AI ‘suy nghĩ bằng hình ảnh’ và sử dụng các công cụ một cách tự động

Các mô hình mới của OpenAI ‘suy nghĩ bằng hình ảnh’ để chuyển đổi cách giải quyết vấn đề trực quan

Vượt ra ngoài các mô hình AI: Cách o3 và o4-mini hoạt động như các hệ thống AI hoàn chỉnh với tích hợp công cụ tiên tiến

OpenAI vượt lên dẫn trước các đối thủ cạnh tranh với hiệu suất phá kỷ lục trên các tiêu chuẩn AI quan trọng

Các mô hình mới của OpenAI chuyển đổi kỹ thuật phần mềm như thế nào với khả năng điều hướng mã chưa từng có

Bên trong các giao thức an toàn nâng cao của OpenAI: Cách công ty bảo vệ chống lại việc sử dụng sai mục đích AI

Khi nào và làm thế nào bạn có thể truy cập o3 và o4-mini: Dòng thời gian triển khai và chiến lược thương mại

Tương lai của AI: Cách OpenAI kết nối lý luận và hội thoại cho các hệ thống thế hệ tiếp theo

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi