Thật vậy, các điểm chuẩn ban đầu do công ty công bố cho thấy Google đã dẫn đầu – lần đầu tiên kể từ khi cuộc đua AI tạo sinh bắt đầu thực sự với sự ra mắt của ChatGPT vào cuối năm 2022 – vượt trội hơn tất cả các mô hình khác trên ít nhất một điểm chuẩn mã hóa quan trọng.
Phiên bản mới, có nhãn “gemini-2.5-pro-preview-05-06”, thay thế bản phát hành trước đó vào ngày 25-03 và hiện có sẵn cho các nhà phát triển độc lập trong Google AI Studio và cho các doanh nghiệp trong nền tảng đám mây Vertex AI , cũng như cho người dùng cá nhân trong ứng dụng Gemini . Bài đăng trên blog của Google cho biết nó cũng hỗ trợ Canvas của ứng dụng di động Gemini và các tính năng khác.
Phiên bản mới hỗ trợ phát triển tính năng trong các ứng dụng như Gemini 95, nơi mô hình giúp khớp các kiểu trực quan trên các thành phần một cách tự động. Nó cũng cho phép các quy trình công việc như chuyển đổi video YouTube thành các ứng dụng học tập đầy đủ tính năng và tạo ra các thành phần có kiểu dáng cao—chẳng hạn như trình phát video phản hồi hoặc giao diện người dùng đọc chính tả hoạt hình—với ít hoặc không cần chỉnh sửa CSS thủ công.
Đây là mô hình độc quyền, nghĩa là các doanh nghiệp sẽ phải trả tiền cho Google để sử dụng và chỉ truy cập thông qua các dịch vụ web của Google. Tuy nhiên, mô hình này không thay đổi giá cả hoặc giới hạn tỷ lệ; người dùng hiện tại của Gemini 2.5 Pro sẽ được tự động chuyển sang mô hình được cập nhật có giá 1,25 đô la/10 đô la cho mỗi triệu token vào/ra (cho độ dài ngữ cảnh là 200.000 token) so với Claude 3.7 Sonnet là 3 đô la/15 đô la .

Công ty đưa ra động thái này — trước hội nghị dành cho nhà phát triển I/O (đầu vào/đầu ra) thường niên của Google vào cuối tháng này tại Mountain View và trực tuyến, ngày 20-21 tháng 5 — như một phản hồi trước phản hồi mạnh mẽ của cộng đồng về tiện ích thiết thực của Gemini trong việc tạo mã và thiết kế giao diện thực tế.
Logan Kilpatrick, Trưởng phòng sản phẩm của Gemini API và Google AI Studio, đã xác nhận trong bài đăng trên blog dành cho nhà phát triển rằng bản cập nhật cũng giải quyết phản hồi chính của nhà phát triển về lệnh gọi hàm, với những cải tiến về giảm lỗi và độ tin cậy của lệnh kích hoạt.
Điểm số cao nhất từ người đánh giá khi tạo ứng dụng web
Trên WebDev Arena Leaderboard, một thước đo của bên thứ ba xếp hạng các mô hình theo sở thích của con người dựa trên khả năng tạo ra các ứng dụng web hấp dẫn về mặt hình ảnh và chức năng, Gemini 2.5 Pro Preview (05-06) hiện đã vượt qua Claude 3.7 Sonnet của Anthropic để giành vị trí số một.
Phiên bản mới đạt 1499,95 điểm trên bảng xếp hạng, vượt xa Sonnet 3.7 với 1377,10 điểm. Mẫu Gemini 2.5 Pro (03-25) trước đó giữ vị trí thứ ba với số điểm là 1278,96, nghĩa là phiên bản I/O có bước nhảy vọt 221 điểm.

Theo như người dùng AI thành thạo “Lisan al Gaib” trên X đã lưu ý , ngay cả GPT-4o (“o3”) của OpenAI cũng không thể thay thế được Sonnet 3.7, điều này làm nổi bật tầm quan trọng của sự tiến bộ của Gemini.
Hiệu suất tăng cường của Gemini phản ánh độ tin cậy, tính thẩm mỹ và khả năng sử dụng được cải thiện trong các đầu ra của nó.
Đã giành được nhiều lời khen ngợi
Một số nhà phát triển và lãnh đạo nền tảng đã nhấn mạnh đến độ tin cậy và khả năng ứng dụng được cải thiện của mô hình trong các tình huống sản xuất.
Silas Alberti của Cognition lưu ý rằng Gemini 2.5 Pro là mô hình đầu tiên hoàn thành thành công quá trình tái cấu trúc phức tạp của hệ thống định tuyến phụ trợ, thể hiện loại quyết định mà người ta mong đợi từ một nhà phát triển cao cấp.
Michael Truell, CEO của công cụ mã hóa AI Cursor, cho biết thử nghiệm nội bộ cho thấy sự giảm đáng kể các lỗi gọi công cụ, một vấn đề đã được ghi nhận trước đó. Ông hy vọng người dùng sẽ thấy phiên bản mới nhất hiệu quả hơn đáng kể trong môi trường thực hành. Cursor đã tích hợp Gemini 2.5 Pro vào tác nhân mã của riêng mình, phản ánh cách các nhà phát triển đang sử dụng mô hình như một thành phần chính trong quy trình làm việc của nhà phát triển thông minh hơn.
Michele Catasta, Chủ tịch Replit, mô tả Gemini 2.5 Pro là mô hình biên giới tốt nhất để cân bằng khả năng với độ trễ. Bình luận của ông cho thấy Replit đang cân nhắc tích hợp mô hình vào các công cụ của riêng mình, đặc biệt là đối với các tác vụ mà khả năng phản hồi và độ tin cậy cao là rất quan trọng.
Tương tự như vậy, nhà giáo dục AI và người sáng lập chatbot AI tư nhân BlueShell, Paul Couvert đã lưu ý trên X rằng “Khả năng tạo mã và giao diện người dùng của nó rất ấn tượng”.
Và như Pietro Schirano, CEO của công cụ nghệ thuật AI EverArt, đã lưu ý trên X , phiên bản Gemini 2.5 Pro I/O mới có thể tạo ra mô phỏng tương tác của meme “1 con khỉ đột đấu với 100 người đàn ông” đang lan truyền trên mạng xã hội gần đây chỉ từ một lời nhắc duy nhất.
Khi giới thiệu một trò chơi giải đố tương tác theo phong cách Tetris khác với hiệu ứng âm thanh được cho là được tạo ra trong vòng chưa đầy một phút, người dùng X “RameshR” (@rezmeram) đã viết rằng “ngành công nghiệp trò chơi thông thường đã chết!!”
Những xác nhận này củng cố thêm tuyên bố của DeepMind về những cải tiến thiết thực và có thể khuyến khích áp dụng rộng rãi hơn trên các nền tảng dành cho nhà phát triển.
Ứng dụng và chương trình đầy đủ từ một lời nhắc văn bản
Một trong những tính năng nổi bật của bản cập nhật là khả năng xây dựng các ứng dụng web hoặc mô phỏng tương tác hoàn chỉnh chỉ từ một lời nhắc.
Điều này phù hợp với tầm nhìn của DeepMind về việc đơn giản hóa quá trình tạo mẫu và phát triển.
Các bản trình diễn trong ứng dụng Gemini cho thấy cách người dùng có thể chuyển đổi các mẫu trực quan hoặc lời nhắc theo chủ đề thành mã có thể sử dụng, giúp giảm rào cản gia nhập cho các nhà phát triển và nhóm thiết kế đang thử nghiệm những ý tưởng mới.
Mặc dù kiến trúc và những thay đổi bên trong của Gemini 2.5 Pro chưa được công bố chi tiết, nhưng trọng tâm vẫn là cho phép trải nghiệm phát triển nhanh hơn và trực quan hơn.
Bằng cách dựa vào thế mạnh của mình trong việc tạo mã và đầu vào đa phương thức, Gemini 2.5 Pro được định vị ít hơn như một sự mới lạ trong nghiên cứu và nhiều hơn như một công cụ thực tế cho các thách thức mã hóa trong thế giới thực. Bản phát hành sớm phản ánh ý định rõ ràng của Google DeepMind nhằm đáp ứng nhu cầu của nhà phát triển và duy trì động lực trước các thông báo hội nghị lớn của mình.