Một làn sóng mới các “tác tử” AI hỗ trợ duyệt web đang nổi lên, hứa hẹn cách mạng hóa cách doanh nghiệp tương tác với môi trường web. Những tác tử này có thể tự động duyệt website, thu thập thông tin, thậm chí hoàn tất giao dịch. Tuy nhiên, thử nghiệm ban đầu chỉ ra sự chênh lệch rõ giữa kỳ vọng và thực tế.
Trong khi “Operator,” tác tử trình duyệt web mới của OpenAI (dành cho người dùng ChatGPT Pro), tạo ấn tượng với các ví dụ như đặt pizza hay mua vé xem game, câu hỏi quan trọng là: “Đâu mới là kịch bản sử dụng chính cho nhà phát triển và doanh nghiệp?” Theo Sam Witteveen, đồng sáng lập Red Dragon (một công ty chuyên phát triển ứng dụng ‘tác tử AI’), “Chúng ta chưa biết đâu sẽ là ứng dụng then chốt, nhưng tôi đoán nó nằm ở các việc lặp lại nhàm chán trên web mà bạn không thích tự làm.” Chẳng hạn, vào web để so sánh giá rẻ nhất cho một sản phẩm hay đặt chỗ khách sạn tối ưu. Nhiều khả năng, nó sẽ kết hợp cùng công cụ khác, như Deep Research, để doanh nghiệp thực hiện được những nghiên cứu phức tạp hơn và tự động hóa nhiệm vụ trên web.
Dù có nhiều cách tiếp cận khác nhau của nhà phát triển, doanh nghiệp cần đánh giá nghiêm túc bối cảnh thay đổi nhanh này, nơi cả công ty công nghệ lớn lẫn startup đang tìm lối giải cho bài toán “duyệt web tự động.”
Các “tay chơi” chính trong mảng tác tử duyệt web
Chỉ trong thời gian ngắn, thị trường đã xuất hiện đông đủ cả “ông lớn” và startup sáng tạo:
- Operator của OpenAI (ra mắt tháng 1/2025) – Có trong gói ChatGPT Pro ($200/tháng), tập trung vào tự động hóa web thân thiện với người dùng.
- Proxy của Convergence (ra mắt tháng 12/2024) – Startup Anh, cho phép dùng miễn phí (tối đa 5 lần/ngày) hoặc gói không giới hạn giá $20/tháng.
- Project Mariner của Google – Hiện trong giai đoạn thử nghiệm, có danh sách chờ.
- Computer Use của Anthropic (ra mắt tháng 10/2024) – Dự kiến sớm ra bản cập nhật.
- OmniParser V2 của Microsoft (tháng 2/2025) – Dự án mã nguồn mở giúp chuyển ảnh chụp màn hình giao diện thành dữ liệu cấu trúc, cho phép LLM “hiểu” và tương tác trang.
- UI-TARS của ByteDance – Đòi quyền truy cập sâu hệ thống, tiềm ẩn lo ngại bảo mật.
- Browser-Use – Công cụ dành cho nhà phát triển, cho phép dùng nhiều mô hình AI, kể cả Gemini 2.0 Flash của Google.
Trong đó, Operator và Proxy được xem là thân thiện người dùng nhất, sẵn sàng dùng ngay. Phần lớn nền tảng khác dường như hướng đến nhà phát triển hay doanh nghiệp. Chẳng hạn, Browser Use (một startup Y-Combinator) cho phép tùy chỉnh mô hình AI với tác tử. Dù trao nhiều quyền kiểm soát, nó đòi hỏi quy trình phức tạp hơn.
Một vài nền tảng khác can thiệp ít nhiều vào tài nguyên máy tính người dùng. Tôi đã tạm chưa thử UI-TARS của ByteDance vì công cụ này đòi quyền truy cập sâu vào tính năng bảo mật, riêng tư (nếu thử, chắc chắn tôi sẽ dùng máy phụ).
Kiểm chứng tiết lộ thử thách về suy luận
Hai tác tử dễ kiểm thử nhất là Operator của OpenAI và Proxy của Convergence. Khi thử, kết quả cho thấy khả năng suy luận mới là yếu tố then chốt, hơn cả tính năng tự động hóa đơn thuần. Operator, đặc biệt, tỏ ra lỗi nhiều hơn.
Ví dụ, tôi yêu cầu hai tác tử tìm và tóm tắt 5 bài viết được ưa chuộng nhất trên VentureBeat. Đây là nhiệm vụ mơ hồ, vì VentureBeat không có chuyên mục “thịnh hành nhất.” Operator loay hoay “cuộn trang vô tận” để tìm “most popular,” buộc tôi can thiệp thủ công. Lần khác, nó tìm được một bài “Top five stories of the week” cách đây ba năm. Ngược lại, Proxy xử lý tinh tế hơn, nó coi 5 bài hiển thị nổi bật trên trang chủ như một “thước đo tạm” về mức độ phổ biến, rồi tóm tắt chính xác.
Sự khác biệt càng rõ khi làm nhiệm vụ thực tế. Tôi bảo hai tác tử đặt bàn ở một nhà hàng lãng mạn tầm trưa tại Napa, California. Operator chọn cách tiếp cận tuyến tính – tìm một nhà hàng lãng mạn, rồi kiểm tra suất trống. Khi không có suất, nó đành “tắc đường.” Proxy lý luận thông minh hơn, dùng OpenTable để tìm nhà hàng lãng mạn nào còn suất lúc trưa, thậm chí gợi ý nơi xếp hạng tốt hơn.
Ngay cả nhiệm vụ đơn giản như tìm giá “YubiKey 5C NFC” trên Amazon, Proxy cũng tìm nhanh hơn Operator.
OpenAI không tiết lộ nhiều về công nghệ huấn luyện Operator, chỉ nói rằng mô hình được huấn luyện cho tác vụ duyệt web. Convergence lại minh bạch hơn: Tác tử của họ dùng “Generative Tree Search” (GTS) để “khai thác Web-World Models, dự đoán trạng thái trang web sau hành động, tạo ra nhiều nhánh tương lai để chọn động tác tối ưu, dựa trên mô hình giá trị. Ngoài ra, Web-World models giúp huấn luyện tác tử ở tình huống giả lập mà không cần nhiều dữ liệu đắt đỏ.”
Các chuẩn đánh giá có thể vô giá trị ở giai đoạn này
Trên giấy tờ, hai công cụ này trông khá ngang tài. Proxy đạt 88% ở chuẩn WebVoyager (đánh giá tác tử web qua 643 nhiệm vụ thực trên 15 website phổ biến như Amazon, Booking.com). Operator được 87%, Browser-Use tuyên bố 89% nhưng thừa nhận có “chỉnh” chút code WebVoyager “cho phù hợp yêu cầu chúng tôi.”
Dù vậy, các điểm chuẩn này cần xem nhẹ vì có thể bị “làm đẹp.” Thử thách thực sự nằm ở các tác vụ thế giới thực. Lĩnh vực này còn mới, sản phẩm thay đổi liên tục, nên kết quả sẽ phụ thuộc khối việc cụ thể bạn muốn làm, có lẽ cách tốt nhất là tự trải nghiệm thử để “xem có hợp vibe hay không.”
Ảnh hưởng với doanh nghiệp
Như Witteveen nhắc trong video podcast trò chuyện về xu hướng “tác tử duyệt web,” các công ty có thể đang trả tiền thuê “trợ lý ảo” do con người vận hành để làm nghiên cứu web, thu thập dữ liệu. Những tác tử duyệt web AI có thể thay đổi cán cân này.
“Nếu AI làm được điều này,” Witteveen nói, “đó sẽ là ‘trái ngọt’ đầu tiên, khiến một nhóm người mất việc. Bạn sẽ thấy nó trong các tác vụ dạng vậy.”
Điều này có thể lan sang xu hướng “tự động hóa quy trình robot” (RPA), khi tác vụ duyệt web trở thành một trong các công cụ để doanh nghiệp tự động hóa thêm nghiệp vụ. Như đề cập, sức mạnh lớn sẽ xuất hiện khi một tác tử vừa dùng trình duyệt, vừa dùng công cụ khác, ví dụ Deep Research, cho phép LLM phối hợp trình tìm kiếm, duyệt trang để xử lý công việc tinh vi hơn.
Động lực phát triển dựa trên chi phí
Yếu tố then chốt thúc đẩy phát triển là ngày càng nhiều mô hình suy luận mã nguồn mở như DeepSeek R1. Nhờ đó, các công ty làm “tác tử duyệt web” có thể cạnh tranh hiệu quả với “ông lớn” bằng cách sử dụng mô hình sẵn có thay vì xây mô hình riêng.
Áp lực giá đã lộ rõ. Trong khi OpenAI yêu cầu gói ChatGPT Pro 200 đô la/tháng mới được dùng Operator, Convergence chỉ thu 20 đô la/tháng cho gói không giới hạn, còn bản miễn phí đến 5 lần/ngày. Đây là động lực khiến doanh nghiệp nhanh chân hơn, dẫu vậy chưa nhiều kịch bản cụ thể rõ ràng.
Thách thức về bảo mật và tích hợp
Vẫn còn rào cản trước khi doanh nghiệp triển khai rộng. Một số trang web chặn duyệt tự động, nhiều trang dùng CAPTCHA. Trong khi OpenAI và Convergence có biện pháp vượt CAPTCHA, chúng thường buộc người dùng chủ động điền. (Bởi mục đích CAPTCHA là phân biệt “người” chứ không để bot xâm nhập.) Một số công cụ như UI-TARS (ByteDance) đòi quyền truy cập sâu vào hệ thống, dễ gây lo ngại bảo mật cho doanh nghiệp.
Bên cạnh đó, thái độ của website trước “tác tử” cũng khác nhau. OpenAI hợp tác với Instacart, Priceline, DoorDash, Etsy, còn các nền tảng khác cố gắng “tự bơi” với mọi website. Sự thiếu đồng nhất này có thể ảnh hưởng độ tin cậy khi dùng trong doanh nghiệp. Ngoài ra, bất cứ lần nào tác tử gặp trang đòi đăng nhập, quá trình cũng sẽ chậm vì cần bạn nhập thông tin.
Tương lai
Với doanh nghiệp cân nhắc công cụ này, cần tập trung vào trường hợp cụ thể nơi tương tác web tự động mang lại giá trị rõ rệt, từ nghiên cứu, dịch vụ khách hàng đến tự động hóa quy trình. Công nghệ đang tiến bộ nhanh, nhưng hiệu quả phụ thuộc vào việc kết hợp khả năng với nhu cầu thực tế.
Khi lĩnh vực tiếp tục tiến, dự kiến nhiều tính năng hướng doanh nghiệp sẽ ra đời, thậm chí tác tử chuyên dụng cho ngành hoặc nhiệm vụ cụ thể. Cuộc đua giữa “ông lớn” và startup sẽ thúc đẩy tiến bộ kỹ thuật và cạnh tranh giá, biến năm 2025 thành cột mốc quan trọng cho việc “tác tử duyệt web” xâm nhập doanh nghiệp.