Nhưng vào cuối năm 2024, công ty đã ra mắt dòng sản phẩm nền tảng nội bộ của riêng mình, Amazon Nova , với khả năng tạo văn bản, hình ảnh và thậm chí là video, và tháng trước đã chứng kiến một trợ lý giọng nói Amazon Alexa mới được hỗ trợ một phần bởi dòng sản phẩm Claude của Anthropic.
Sau đó, vào thứ Hai, bộ phận trí tuệ nhân tạo chung của gã khổng lồ thương mại điện tử và đám mây Amazon AGI đã công bố phát hành Amazon Nova Act , một bộ công cụ phát triển thử nghiệm để xây dựng các tác nhân AI có thể điều hướng web và hoàn thành các tác vụ một cách tự động, được hỗ trợ bởi phiên bản tùy chỉnh, độc quyền của mô hình ngôn ngữ lớn Nova (LLM) của Amazon. À, và bộ công cụ phát triển chuẩn (SDK) là mã nguồn mở theo giấy phép Apache 2.0 cho phép, mặc dù SDK được thiết kế để chỉ hoạt động với mô hình Nova tùy chỉnh nội bộ của Amazon, không phải bất kỳ mô hình nào của bên thứ ba.
Mục tiêu là cho phép các nhà phát triển bên thứ ba xây dựng các tác nhân AI có khả năng thực hiện các tác vụ một cách đáng tin cậy trong trình duyệt web.
Nhưng Nova Act của Amazon có thể so sánh như thế nào với các nền tảng xây dựng tác nhân khác trên thị trường, chẳng hạn như AutoGen của Microsoft , Agentforce của Salesforce và tất nhiên là Agents SDK nguồn mở mới phát hành gần đây của OpenAI ?
Một cách tiếp cận khác biệt và chu đáo hơn đối với các tác nhân AI
Kể từ khi các mô hình ngôn ngữ lớn (LLM) xuất hiện, hầu hết các hệ thống “tác nhân” đều bị giới hạn trong việc phản hồi bằng ngôn ngữ tự nhiên hoặc cung cấp thông tin bằng cách truy vấn cơ sở kiến thức.
Nova Act là một phần của sự thay đổi lớn hơn trong ngành hướng tới các tác nhân dựa trên hành động—các hệ thống có thể hoàn thành các tác vụ thực tế trên các môi trường kỹ thuật số thay mặt cho người dùng. API Responses mới của OpenAI , cho phép người dùng truy cập vào trình duyệt tự động của nó, là một ví dụ điển hình về điều này, mà các nhà phát triển có thể tích hợp vào các tác nhân AI thông qua OpenAI Agents SDK.
Amazon AGI nhấn mạnh rằng các hệ thống tác nhân hiện tại, mặc dù đầy hứa hẹn, nhưng vẫn gặp khó khăn về độ tin cậy và thường đòi hỏi sự giám sát của con người, đặc biệt là khi xử lý các quy trình làm việc phức tạp hoặc nhiều bước.
Nova Act được thiết kế riêng để giải quyết những hạn chế này bằng cách cung cấp một bộ lệnh nguyên tử, mang tính quy định có thể được kết nối với nhau thành quy trình làm việc đáng tin cậy.
Deniz Birlikci, Thành viên Ban kỹ thuật tại Amazon, đã mô tả tầm nhìn rộng hơn trong video giới thiệu về Nova Act : chẳng bao lâu nữa, sẽ có nhiều tác nhân AI hơn cả số người duyệt web, thực hiện các nhiệm vụ thay mặt cho người dùng.
David Luan, Phó chủ tịch Nhóm Tự chủ của Amazon và Trưởng phòng AGI SF Lab, đã nêu rõ sứ mệnh này một cách trực tiếp hơn trong cuộc phỏng vấn qua video gần đây với VentureBeat: “Chúng tôi đã tạo ra mô hình AI thử nghiệm mới này được đào tạo để thực hiện các hành động trong trình duyệt web. Về cơ bản, chúng tôi cho rằng các tác nhân là khối xây dựng của điện toán”, ông cho biết.
Luan, trước đây là đồng sáng lập và CEO của Adept AI , đã gia nhập Amazon vào năm 2024 với tư cách là một phần của aqcui-hire . Luan cho biết ông từ lâu đã là người ủng hộ các tác nhân AI. “Với Adept, chúng tôi là công ty đầu tiên thực sự bắt đầu làm việc trên các tác nhân AI. Vào thời điểm này, mọi người đều biết các tác nhân quan trọng như thế nào. Thật tuyệt khi đi trước thời đại một chút”, ông nói thêm.
Nova Act cung cấp cho các nhà phát triển những gì
Nova Act SDK cung cấp cho các nhà phát triển một khuôn khổ để xây dựng các tác nhân tự động hóa dựa trên web bằng cách sử dụng lời nhắc bằng ngôn ngữ tự nhiên được chia thành các bước rõ ràng, dễ quản lý.
Không giống như các tác nhân thông thường chạy bằng LLM thử toàn bộ quy trình công việc từ một lời nhắc duy nhất—thường dẫn đến hành vi không đáng tin cậy—Nova Act được thiết kế để thực hiện dần dần các tác vụ nhỏ hơn, có thể xác minh được.
Một số tính năng chính của Nova Act bao gồm:
- Phân tích tác vụ chi tiết: Các nhà phát triển có thể chia nhỏ quy trình công việc kỹ thuật số phức tạp thành các lệnh gọi act() nhỏ hơn, mỗi lệnh hướng dẫn tác nhân thực hiện các tương tác UI cụ thể.
- Thao tác trình duyệt trực tiếp thông qua Playwright: Nova Act tích hợp với Playwright , một khuôn khổ tự động hóa trình duyệt nguồn mở do Microsoft phát triển . Playwright cho phép các nhà phát triển kiểm soát trình duyệt web theo chương trình—nhấp vào các thành phần, điền biểu mẫu hoặc điều hướng các trang—mà không chỉ dựa vào dự đoán của AI. Tích hợp này đặc biệt hữu ích để xử lý các tác vụ nhạy cảm như nhập mật khẩu hoặc thông tin chi tiết về thẻ tín dụng. Ví dụ: thay vì gửi thông tin nhạy cảm đến mô hình, các nhà phát triển có thể hướng dẫn Nova Act tập trung vào trường mật khẩu rồi sử dụng API Playwright để nhập mật khẩu một cách an toàn mà mô hình không bao giờ “nhìn thấy” được. Cách tiếp cận này giúp tăng cường bảo mật và quyền riêng tư khi tự động hóa các tương tác trên web.
- Tích hợp Python: SDK cho phép các nhà phát triển xen kẽ mã Python với các lệnh Nova Act, bao gồm các công cụ Python chuẩn như điểm dừng, xác nhận hoặc nhóm luồng để thực thi song song.
- Trích xuất thông tin có cấu trúc: SDK hỗ trợ trích xuất dữ liệu có cấu trúc thông qua lược đồ Pydantic, cho phép các tác nhân chuyển đổi nội dung màn hình sang định dạng có cấu trúc.
- Song song hóa và lập lịch: Các nhà phát triển có thể chạy nhiều phiên bản Nova Act cùng lúc và lập lịch các quy trình công việc tự động mà không cần sự giám sát liên tục của con người.
Luan nhấn mạnh rằng Nova Act là một công cụ dành cho các nhà phát triển chứ không phải là một chatbot đa năng. “Nova Act được xây dựng dành cho các nhà phát triển. Đây không phải là một chatbot mà bạn nói chuyện để giải trí. Nó được thiết kế để cho phép các nhà phát triển bắt đầu xây dựng các sản phẩm hữu ích”, ông nói.
Ví dụ, một trong những quy trình làm việc mẫu được trình bày trong tài liệu của Amazon cho thấy Nova Act có thể tự động tìm kiếm căn hộ bằng cách thu thập danh sách nhà cho thuê và tính toán khoảng cách đi xe đạp đến ga tàu, sau đó sắp xếp kết quả trong một bảng có cấu trúc.
Một ví dụ nổi bật khác sử dụng Nova Act để đặt một món salad cụ thể từ Sweetgreen vào mỗi thứ Ba, hoàn toàn rảnh tay và theo lịch trình, minh họa cách các nhà phát triển có thể tự động hóa các tác vụ kỹ thuật số lặp lại theo cách đáng tin cậy và có thể tùy chỉnh.
Hiệu suất chuẩn và tập trung vào độ tin cậy
Thông điệp chính trong thông báo của Amazon là độ tin cậy, chứ không chỉ trí thông minh, là rào cản chính đối với việc áp dụng rộng rãi các tác nhân.
Theo Amazon, các mô hình tiên tiến hiện nay thực sự khá yếu trong việc cung cấp năng lượng cho các tác nhân AI, trong khi các tác nhân này thường chỉ đạt tỷ lệ thành công từ 30% đến 60% đối với các tác vụ nhiều bước dựa trên trình duyệt.
Tuy nhiên, Nova Act nhấn mạnh vào phương pháp tiếp cận theo khối xây dựng, đạt hơn 90% điểm đánh giá nội bộ về các nhiệm vụ thách thức các mô hình khác, chẳng hạn như tương tác với danh sách thả xuống, chọn ngày hoặc cửa sổ bật lên.
Luan nhấn mạnh lý do tại sao sự tập trung vào độ tin cậy đó lại quan trọng. “Điều chúng tôi thực sự tập trung vào là làm thế nào để bạn thực sự khiến các tác nhân trở nên đáng tin cậy? Nếu bạn yêu cầu nó cập nhật một bản ghi trong Salesforce và nó xóa cơ sở dữ liệu của bạn một trong mười lần, thì có lẽ bạn sẽ không bao giờ sử dụng nó nữa”, ông nói.
Amazon AGI đã đánh giá chuẩn Nova Act so với các mô hình cạnh tranh bao gồm Claude 3.7 Sonnet của Anthropic và mô hình CUA của OpenAI. Trên chuẩn ScreenSpot Web Text, kiểm tra việc tuân theo hướng dẫn trên các thành phần màn hình văn bản, Nova Act đạt điểm 0,939, vượt trội hơn Claude 3.7 Sonnet (0,900) và OpenAI CUA (0,883).

Trong bài đánh giá ScreenSpot Web Icon tập trung vào các thành phần UI trực quan, Nova Act đạt 0,879 điểm, một lần nữa vượt trội hơn các mẫu khác.
Tuy nhiên, trên chuẩn GroundUI Web, dùng để kiểm tra tương tác UI nói chung, Nova Act đạt 0,805 điểm, kém hơn một chút so với các đối thủ cạnh tranh.
Những điểm số này được Amazon đo lường nội bộ bằng cách sử dụng các lời nhắc và tiêu chí đánh giá nhất quán.
Amazon cũng nhấn mạnh những kết quả ban đầu về khả năng khái quát hóa vượt ra ngoài môi trường tiêu chuẩn của Nova Act.
Ví dụ, thành viên nhóm Rick Liu đã chứng minh cách mà một tác nhân, không cần đào tạo cụ thể, vẫn có thể tương tác thành công với một trò chơi trên web có chủ đề về chim bồ câu—chỉ định chỉ số, chiến đấu với đối thủ và tiến triển trong trò chơi.
Theo Luan, khả năng khái quát hóa đó là trọng tâm của tầm nhìn dài hạn. “Mục tiêu của chúng tôi với Nova Act là trở thành giải pháp sử dụng trình duyệt phổ biến. Chúng tôi muốn một tác nhân có thể làm bất cứ điều gì bạn muốn làm trên máy tính cho bạn”, ông nói.
Linh hoạt để sử dụng trên các đám mây khác nhau, nhưng bị giới hạn trong mô hình Nova của Amazon
Trong khi Nova Act có thể được các nhà phát triển trên toàn cầu truy cập thông qua nova.amazon.com , Luan làm rõ rằng hệ thống này được kết nối chặt chẽ với các mô hình nền tảng Nova nội bộ của Amazon.
Các nhà phát triển không thể kết nối với các LLM bên ngoài như GPT-4o của OpenAI hoặc Claude 3.7 Sonnet của Anthropic , không giống như Agents SDK của OpenAI và ở mức độ thấp hơn là nền tảng AutoGen của Microsoft và Agentforce của Salesforce (cho phép chuyển đổi sang một số công ty cung cấp và họ mô hình khác nhau).
“Nova Act là phiên bản được đào tạo tùy chỉnh của mô hình Nova”, ông nói. “Nó không chỉ là một giàn giáo trên một LLM chung chung. Nó được đào tạo gốc để hành động trên internet thay mặt cho bạn”.
Tuy nhiên, Nova Act không bị giới hạn trong môi trường AWS. Các nhà phát triển có thể tải xuống SDK và chạy cục bộ, trên đám mây hoặc bất cứ nơi nào họ chọn. “Bạn không cần phải ở trên AWS để sử dụng nó”, Luan tuyên bố.
Do đó, đối với các doanh nghiệp đang tìm kiếm sự linh hoạt tối đa của mô hình cơ bản cho các đại lý của mình, Nova Act có lẽ không phải là lựa chọn tốt nhất. Tuy nhiên, đối với những người đang tìm kiếm một mô hình được xây dựng có mục đích cụ thể được thiết kế để điều hướng web và thực hiện các hành động trên nhiều trang web khác nhau với giao diện người dùng (UI) rất khác nhau, thì có lẽ đáng để xem xét — đặc biệt nếu bạn đã tham gia vào hệ sinh thái nhà phát triển Amazon hoặc AWS.
Bảo mật, cấp phép và giá cả
Nova Act SDK được phát hành theo Giấy phép Apache, Phiên bản 2.0 (tháng 1 năm 2004), một giấy phép nguồn mở. Tuy nhiên, điều này chỉ áp dụng cho phần mềm SDK.
Bản thân mô hình Nova Act, cùng với trọng số và dữ liệu đào tạo của nó, là độc quyền và vẫn là nguồn đóng. Theo Luan, cách tiếp cận này là có chủ đích, người giải thích rằng mô hình được tích hợp chặt chẽ và được đào tạo chung với SDK để đạt được độ tin cậy.
Khi ra mắt, Nova Act được cung cấp dưới dạng bản xem trước nghiên cứu miễn phí. Hiện chưa có giá công bố cho mục đích sử dụng sản xuất.
Luan mô tả giai đoạn này là cơ hội cho các nhà phát triển thử nghiệm và xây dựng bằng công nghệ. “Chúng tôi tin rằng phần lớn các sản phẩm tác nhân hữu ích nhất vẫn chưa được xây dựng. Chúng tôi muốn cho phép bất kỳ ai xây dựng một tác nhân thực sự hữu ích, cho dù là cho chính họ hay như một sản phẩm”, ông nói.
Về lâu dài, Amazon có kế hoạch giới thiệu các điều khoản cấp sản xuất, bao gồm thanh toán dựa trên mức sử dụng và đảm bảo mở rộng quy mô, nhưng những điều khoản này hiện vẫn chưa khả dụng.
Nova Act sẽ có bước tiến gì tiếp theo?
Việc phát hành Nova Act phản ánh tham vọng lớn hơn của Amazon trong việc biến các tác nhân AI hướng đến hành động thành một thành phần nền tảng của điện toán.
Luan tóm tắt cơ hội phía trước: “Ước mơ cá nhân của tôi là các tác nhân trở thành nền tảng của điện toán và các sản phẩm và công ty khởi nghiệp mới tuyệt vời nhất sẽ được xây dựng dựa trên những gì nhóm của chúng tôi đang phát triển”.
Nova Act SDK hiện có sẵn để thử nghiệm và tạo mẫu trên trang web của Amazon và trên Github .