“Đây là mục tiêu cuối cùng của chúng tôi đối với ứng dụng Gemini: Một AI mang tính cá nhân, chủ động và mạnh mẽ”, Demis Hassabis, CEO của Google DeepMind, cho biết trong buổi họp báo trước.
‘Deep Think’ đạt điểm ấn tượng trên các tiêu chuẩn hàng đầu
Google đã công bố Gemini 2.5 Pro — được coi là mô hình thông minh nhất từ trước đến nay, với cửa sổ ngữ cảnh một triệu mã thông báo — vào tháng 3 và phát hành phiên bản mã hóa “I/O” vào đầu tháng này (Hassabis gọi đây là “mô hình mã hóa tốt nhất mà chúng tôi từng xây dựng!”).
Hassabis cho biết: “Chúng tôi thực sự ấn tượng với những gì mọi người đã tạo ra, từ việc biến các bản phác thảo thành ứng dụng tương tác cho đến mô phỏng toàn bộ thành phố”.
Ông lưu ý rằng, dựa trên kinh nghiệm của Google với AlphaGo , phản ứng của mô hình AI sẽ cải thiện khi chúng có nhiều thời gian hơn để suy nghĩ. Điều này khiến các nhà khoa học DeepMind phát triển Deep Think, sử dụng nghiên cứu tiên tiến nhất của Google về tư duy và lý luận, bao gồm các kỹ thuật song song.
Deep Think đã đạt được điểm số ấn tượng trong các chuẩn mực toán học và mã hóa khó nhất, bao gồm Kỳ thi Olympic Toán học Hoa Kỳ năm 2025 ( USAMO ). Nó cũng dẫn đầu trên LiveCodeBench , một chuẩn mực khó đối với mã hóa cấp độ thi đấu, và đạt 84,0% trên MMMU , kiểm tra khả năng hiểu và lý luận đa phương thức.
Hassabis nói thêm, “Chúng tôi đang dành thêm một chút thời gian để tiến hành thêm các đánh giá về an toàn biên giới và nhận thêm ý kiến đóng góp từ các chuyên gia về an toàn.” (Ý nghĩa: Hiện tại, tính năng này có sẵn cho các nhà thử nghiệm đáng tin cậy thông qua API để nhận phản hồi trước khi khả năng này được triển khai rộng rãi.)
Nhìn chung, 2.5 Pro mới dẫn đầu bảng xếp hạng mã hóa phổ biến WebDev Arena , với điểm ELO — đo lường trình độ kỹ năng tương đối của người chơi trong các trò chơi hai người chơi như cờ vua — là 1420 (trung cấp đến thành thạo). Nó cũng dẫn đầu trong tất cả các hạng mục của bảng xếp hạng LMArena , đánh giá AI dựa trên sở thích của con người.
Hassabis cho biết kể từ khi ra mắt, “chúng tôi thực sự ấn tượng với những gì [người dùng] đã tạo ra, từ việc biến các bản phác thảo thành ứng dụng tương tác đến mô phỏng toàn bộ thành phố”.
Cập nhật quan trọng cho Gemini 2.5 Pro, Flash
Cũng trong ngày hôm nay, Google đã công bố phiên bản Flash 2.5 nâng cao, được coi là mô hình chủ lực của hãng được thiết kế để đạt được tốc độ, hiệu quả và chi phí thấp. Flash 2.5 đã được cải thiện trên mọi phương diện về điểm chuẩn cho lý luận, đa phương thức, mã và ngữ cảnh dài — Hassabis lưu ý rằng nó “chỉ đứng thứ hai” sau 2.5 Pro trên bảng xếp hạng LMArena. Mô hình này cũng hiệu quả hơn, sử dụng ít hơn 20 đến 30% mã thông báo.
Google đang thực hiện các điều chỉnh cuối cùng cho Flash 2.5 dựa trên phản hồi của nhà phát triển; hiện đã có bản xem trước trong Google AI Studio, Vertex AI và trong ứng dụng Gemini. Nó sẽ có sẵn để sản xuất vào đầu tháng 6.
Google sẽ mang đến những khả năng bổ sung cho cả Gemini 2.5 Pro và 2.5 Flash, bao gồm đầu ra âm thanh gốc để tạo ra trải nghiệm đàm thoại tự nhiên hơn, chuyển văn bản thành giọng nói để hỗ trợ nhiều người nói, tóm tắt suy nghĩ và ngân sách suy nghĩ.
Với đầu vào âm thanh gốc (trong bản xem trước), người dùng có thể điều khiển tông giọng, giọng điệu và phong cách nói của Gemini (hãy nghĩ đến việc chỉ đạo mô hình trở nên cường điệu hoặc ủy mị khi kể một câu chuyện). Giống như Project Mariner , mô hình cũng được trang bị công cụ sử dụng, cho phép tìm kiếm thay mặt cho người dùng.
Các tính năng giọng nói thử nghiệm ban đầu khác bao gồm hội thoại tình cảm, cho phép mô hình phát hiện cảm xúc trong giọng nói của người dùng và phản hồi phù hợp; âm thanh chủ động cho phép tắt các cuộc trò chuyện nền; và suy nghĩ trong Live API để hỗ trợ các tác vụ phức tạp hơn.
Các tính năng đa loa mới trong cả Pro và Flash đều hỗ trợ hơn 24 ngôn ngữ và các mô hình có thể nhanh chóng chuyển đổi từ phương ngữ này sang phương ngữ khác. “Chuyển văn bản thành giọng nói có tính biểu cảm và có thể nắm bắt được những sắc thái tinh tế, chẳng hạn như tiếng thì thầm”, Koray Kavukcuoglu, CTO của Google DeepMind và Tulsee Doshi, giám đốc cấp cao phụ trách quản lý sản phẩm tại Google DeepMind, đã viết trong một bài đăng trên blog ngày hôm nay .
Hơn nữa, 2.5 Pro và Flash hiện bao gồm các bản tóm tắt suy nghĩ trong Gemini API và Vertex AI. Những bản tóm tắt này “lấy các suy nghĩ thô của mô hình và sắp xếp chúng thành một định dạng rõ ràng với các tiêu đề, chi tiết chính và thông tin về các hành động của mô hình, chẳng hạn như khi chúng sử dụng các công cụ”, Kavukcuoglu và Doshi giải thích. Mục tiêu là cung cấp một định dạng có cấu trúc, hợp lý hơn cho quá trình suy nghĩ của mô hình và cung cấp cho người dùng các tương tác với Gemini đơn giản hơn để hiểu và gỡ lỗi.
Giống như Flash 2.5, Pro hiện cũng được trang bị ‘ngân sách suy nghĩ’, cho phép các nhà phát triển kiểm soát số lượng mã thông báo mà mô hình sử dụng để suy nghĩ trước khi phản hồi hoặc, nếu họ muốn, tắt hoàn toàn khả năng suy nghĩ của mô hình. Khả năng này sẽ có sẵn trong những tuần tới.
Cuối cùng, Google đã bổ sung hỗ trợ SDK gốc cho các định nghĩa Giao thức bối cảnh mô hình (MCP) trong API Gemini để các mô hình có thể tích hợp dễ dàng hơn với các công cụ nguồn mở.
Như Hassabis đã nói: “Chúng ta đang sống trong một thời khắc đáng chú ý trong lịch sử khi AI đang tạo nên một tương lai mới tuyệt vời. Đó là sự tiến bộ không ngừng nghỉ.”