OpenAI đã làm dày thêm danh sách mô hình AI vốn đã đa dạng của mình với hai cái tên mới: o3 và o4-mini, bên cạnh GPT-4o mô hình mặc định hiện tại và GPT-4.5 vẫn đang trong giai đoạn thử nghiệm giới hạn. Giữa các tên gọi gây nhầm lẫn và thông tin mô tả nhiều chiều, câu hỏi đặt ra là: đâu là mô hình hiệu quả nhất trong tình huống sử dụng đời thường?
Một thử nghiệm độc lập đã được thực hiện, tập trung vào các tình huống mà người dùng phổ thông hay gặp phải như: suy luận hình ảnh, sáng tạo nội dung, dịch thuật và gợi ý nấu ăn dựa trên ảnh nguyên liệu. Bốn mô hình được thử nghiệm lần lượt là: o3, o4-mini, GPT-4o và GPT-4.5.
Bài kiểm tra 1: Giải Sudoku và Giải Thích Lý Do
Yêu cầu đặt ra là giải một bài Sudoku và trình bày rõ ràng từng bước lý luận.
- Cả bốn mô hình đều giải đúng bài toán.
- o3 và o4-mini thể hiện phong cách phân tích logic rõ ràng, ngắn gọn và trực diện.
- GPT-4o và GPT-4.5 nghiêng về diễn giải mềm mại, dễ hiểu theo phong cách hội thoại.
- Đáng chú ý, GPT-4o khi gặp bài Sudoku vô nghiệm lại đưa ra bảng kết quả toàn số 0 thay vì thông báo không có lời giải.

Bài kiểm tra 2: Làm Thơ Theo Bảng Chữ Cái
Người dùng yêu cầu các mô hình viết một bài thơ về sự chuyển mùa, trong đó mỗi dòng bắt đầu bằng một chữ cái tiếp theo trong bảng chữ cái.
- Cả bốn mô hình đều tuân thủ đúng định dạng.
- o3 không sử dụng gieo vần, thiên về cấu trúc logic hơn nghệ thuật.
- GPT-4o, o4-mini và GPT-4.5 tạo ra các bài thơ ngắn có vần, dễ đọc nhưng vẫn dừng ở mức đơn giản.
- GPT-4.5 được đánh giá là bài thơ tự nhiên, có cảm xúc và gần với ngôn ngữ đời thường nhất.

Bài kiểm tra 3: Gợi Ý Món Ăn Từ Ảnh Nguyên Liệu
Người dùng cung cấp một bức ảnh chứa các nguyên liệu ngẫu nhiên như bơ, xoài đông lạnh, khoai lang, bánh mì, đậu gà, bạc hà, sốt Sriracha và bơ đậu phộng, sau đó yêu cầu gợi ý món ăn phù hợp.
- o3 đưa ra món ăn chi tiết gồm nhiều phần, giải thích rõ lý do kết hợp nguyên liệu và hương vị.
- o4-mini đề xuất món đơn giản dễ làm, ngắn gọn và thực tế.
- GPT-4o trả lời ngắn, ít chi tiết, trái với phong cách thường ngày giàu biểu cảm của mô hình này.
- GPT-4.5 tạo ra hẳn một thực đơn 5 món, bao gồm món tráng miệng là kem xoài bạc hà, được đánh giá là sáng tạo và hấp dẫn.

Bài kiểm tra 4: Dịch Thành Ngữ “It’s raining cats and dogs” Sang Tiếng Nhật
Yêu cầu là dịch cụm từ trên sao cho giữ được nghĩa bóng, thay vì dịch sát từ.
- Cả bốn mô hình đều trả lời hợp lý, xác nhận không có bản dịch trực tiếp trong tiếng Nhật.
- GPT-4.5 đưa ra giải thích chi tiết về việc vì sao cụm từ đó không nên dịch sát nghĩa.
- GPT-4o sử dụng biểu cảm hình ảnh nhiều hơn cần thiết, không phù hợp với bài kiểm tra học thuật.

Kết luận tổng hợp
Bảng so sánh khái quát:
Mô hình | Ưu điểm nổi bật | Hạn chế |
---|---|---|
o3 | Phân tích logic xuất sắc, nhất quán | Kém linh hoạt trong sáng tạo |
o4-mini | Nhanh, hiệu quả, phù hợp với tác vụ ngắn gọn | Thiếu chiều sâu trong phản hồi |
GPT-4o | Giao tiếp thân thiện, dễ dùng | Đôi khi phản hồi quá đơn giản |
GPT-4.5 | Toàn diện, có chiều sâu, gần với con người nhất | Tốc độ phản hồi chậm hơn |
Trong các tình huống sử dụng thực tế, cả bốn mô hình đều hoạt động tốt và phù hợp với các mục tiêu khác nhau. Người dùng cần lựa chọn mô hình phù hợp dựa trên tính chất công việc, mức độ chi tiết mong muốn, và ưu tiên về tốc độ hoặc tính sáng tạo.
Kết luận: Nếu người dùng cần giải quyết các tác vụ logic hình ảnh lập luận, o3 sẽ là lựa chọn lý tưởng. Nếu muốn phản hồi nhanh và gọn nhẹ, o4-mini là giải pháp tối ưu. GPT-4o thân thiện, dễ sử dụng, còn GPT-4.5 phù hợp với những tác vụ sáng tạo và yêu cầu cao về ngữ cảnh và tính cá nhân hóa.
Tìm hiểu thêm tại: https://chatgpt.com/