Thứ Hai, Tháng 6 16, 2025

Amazon Ra Mắt Nova Act: Nền Tảng AI Tác Nhân Web-Native Thế Hệ Mới

Amazon vừa công bố Nova Act, mô hình AI tiên tiến được thiết kế để xây dựng các tác nhân thông minh (smart agents) có thể thực hiện các tác vụ đa bước ngay bên trong trình duyệt web một bước tiến quan trọng hướng đến thế hệ AI tác nhân thực sự độc lập.

Nova Act: Khi AI Không Chỉ Là Trợ Lý Trả Lời, Mà Là Người Thực Thi

Các mô hình ngôn ngữ lớn hiện nay thường sử dụng cơ chế RAG (Retrieval-Augmented Generation) để tìm kiếm thông tin và trả lời câu hỏi. Nhưng Amazon không dừng lại ở đó.

"Chúng tôi muốn xây dựng các tác nhân có khả năng thực hiện chuỗi tác vụ phức tạp, như tổ chức đám cưới hay xử lý các yêu cầu IT trong doanh nghiệp mà không cần người giám sát liên tục," đại diện Amazon chia sẻ.

Phần lớn tác nhân AI hiện tại phụ thuộc vào API và yêu cầu người dùng giám sát thủ công, khiến việc tự động hóa trên web không thực sự hiệu quả. Nova Act chính là câu trả lời của Amazon cho bài toán này.

Nova Act SDK: Giải Pháp Cho Tự Động Hóa Trên Web

Cùng với mô hình Nova Act, Amazon phát hành bản xem trước SDK (software development kit) để các nhà phát triển xây dựng tác nhân có thể:

  • Tự động gửi thông báo nghỉ phép
  • Đặt lịch cuộc họp
  • Trả lời email tự động
  • Và thực hiện các chuỗi tác vụ web đa bước

SDK hỗ trợ:

  • Playwright để điều khiển trình duyệt
  • API call và Python
  • Xử lý song song để vượt qua độ trễ tải trang
  • Chia nhỏ quy trình thành các “lệnh nguyên tử” như click, chọn menu thả, điền biểu mẫu…

Ví dụ: Tác nhân có thể được hướng dẫn “bỏ qua phần upsell bảo hiểm khi thanh toán” một thao tác không đơn giản nếu không có khả năng điều hướng giao diện web linh hoạt.

Hiệu Suất Ấn Tượng Trên Các Bảng Xếp Hạng Benchmark

Khác với nhiều mô hình AI sinh hiện nay thường chỉ đạt mức trung bình trong các bài kiểm tra thực tế, Nova Act ưu tiên độ tin cậy và khả năng thực thi:

  • Score 0.939 trên benchmark ScreenSpot Web Text (điều chỉnh font chữ, xử lý giao diện văn bản)
  • Score 0.879 trên ScreenSpot Web Icon (tương tác với biểu tượng, đánh giá sao…)
  • Trên bài kiểm tra GroundUI Web, Nova Act chưa dẫn đầu nhưng Amazon cho biết sẽ tiếp tục cải tiến
"Chúng tôi không chỉ muốn mô hình tạo được phản hồi đúng, mà còn cần chắc chắn nó hoạt động ổn định và có thể được triển khai thực tế."

Một tác nhân Nova Act có thể chạy “headless” (ẩn giao diện), tích hợp thành API hoặc lên lịch chạy định kỳ. Ví dụ: tự động đặt món salad mỗi tối thứ Ba mà không cần nhắc lại.

Khả Năng Tự Thích Ứng Trong Môi Trường Mới

Một điểm nổi bật của Nova Act là khả năng chuyển đổi hiểu biết giao diện người dùng sang các môi trường mới mà không cần đào tạo lại quá nhiều.

Amazon cho biết Nova Act có thể:

  • Thực hiện tốt trên các trò chơi trình duyệt, dù không được huấn luyện với dữ liệu liên quan đến game
  • Tự định hướng khi giao diện thay đổi, ví dụ như cập nhật bố cục hoặc xuất hiện popup

Nova Act hiện đã được tích hợbp vào hệ sinh thái Alexa+, cho phép tác nhân tự điều hướng web để hoàn tất tác vụ mà API chưa hỗ trợ đầy đủ.

Tầm Nhìn Dài Hạn Cho Hệ Sinh Thái AI Tác Nhân

Nova Act là mảnh ghép đầu tiên trong chiến lược dài hạn của Amazon nhằm xây dựng các tác nhân AI có khả năng:

  • Hiểu ngữ cảnh
  • Lập kế hoạch hành động
  • Thực thi đa nhiệm trong thế giới số và thực

Thay vì dựa vào các bài huấn luyện đơn giản, Amazon sẽ sử dụng phương pháp học tăng cường (reinforcement learning) trong các tình huống thực tế để tạo ra mô hình AI ngày càng thông minh và linh hoạt hơn.

"Những trường hợp sử dụng AI tác nhân giá trị nhất vẫn chưa được xây dựng. SDK Nova Act là cách để chúng tôi cộng tác cùng cộng đồng developer, thúc đẩy sáng tạo và tạo ra thế hệ ứng dụng AI kế tiếp," đại diện Amazon cho biết.

Kết Luận: AI Tác Nhân Thế Hệ Mới Đã Bắt Đầu Với Nova Act

Nova Act không chỉ đơn thuần là mô hình sinh phản hồi nó là bước tiến trong việc chuyển AI từ trợ lý thụ động thành công cụ thực thi chủ động.

Với triết lý thiết kế ưu tiên tính thực tế, khả năng mở rộng và độ tin cậy, Amazon kỳ vọng Nova Act sẽ mở ra một kỷ nguyên mới cho các ứng dụng AI tác nhân web-native, vượt xa giới hạn của những công cụ hiện tại.

Tìm hiểu thêm tại: https://chatgpt.com/

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Databricks mở mã nguồn công cụ ETL khai báo, tăng tốc xây dựng pipeline tới 90%

Databricks công bố mở mã nguồn công cụ Spark...

Google DeepMind ra mắt mô hình AI thay đổi vĩnh viễn dự báo bão

DeepMind hợp tác với Trung tâm Bão Quốc gia...

Microsoft và OpenAI “chia tay”: Ai sẽ nắm giữ quyền lực AI toàn cầu?

Mối quan hệ từng được ví như “bromance” công...

OpenAI tung o3-pro, giảm giá o3 đến 80%

Model mới cùng chiến lược giá mạnh tay của...

Meta đầu tư 15 tỷ USD vào Scale AI, theo đuổi tham vọng siêu trí tuệ

Meta đang tái định hướng chiến lược AI bằng...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »