Trong kỷ nguyên AI hiện đại, một nhóm giao thức mới đang nổi lên để phục vụ cùng một mục đích cơ bản. Lần này, thay vì giúp con người dễ tìm trang web hơn, mục tiêu là giúp AI dễ dàng tìm trang web hơn. Giao thức kiểm soát mô hình (MCP ) của Anthropic , Agent2Agent của Google và các mô hình ngôn ngữ lớn/LLMs.txt nằm trong số những nỗ lực hiện có.
Giao thức mới nhất là nỗ lực mã nguồn mở NLWeb (web ngôn ngữ tự nhiên) của Microsoft, được công bố trong hội nghị Build 2025. NLWeb cũng liên kết trực tiếp với thế hệ đầu tiên của các tiêu chuẩn phân phối web, vì nó được hình thành và tạo ra bởi RV Guha, người đã giúp tạo ra RSS, RDF (Khung mô tả tài nguyên) và schema.org .
NLWeb cho phép các trang web dễ dàng thêm giao diện đàm thoại hỗ trợ AI, biến mọi trang web thành ứng dụng AI, nơi người dùng có thể truy vấn nội dung bằng ngôn ngữ tự nhiên. NLWeb không nhất thiết phải cạnh tranh với các giao thức khác; thay vào đó, nó được xây dựng dựa trên chúng. Giao thức mới sử dụng các định dạng dữ liệu có cấu trúc hiện có như RSS và mỗi phiên bản NLWeb hoạt động như một máy chủ MCP.
“Ý tưởng đằng sau NLWeb là một cách để bất kỳ ai đã có trang web hoặc API có thể dễ dàng biến trang web hoặc API của họ thành ứng dụng agentic”, Giám đốc công nghệ Microsoft Kevin Scott cho biết trong bài phát biểu quan trọng tại Build 2025. “Bạn thực sự có thể nghĩ về nó giống như HTML cho web agentic một chút”.
Cách NLWeb hoạt động để hỗ trợ AI cho web dành cho doanh nghiệp
NLWeb chuyển đổi các trang web thành trải nghiệm hỗ trợ AI thông qua một quy trình đơn giản dựa trên cơ sở hạ tầng web hiện có đồng thời tận dụng các công nghệ AI hiện đại.
Xây dựng trên dữ liệu hiện có: Hệ thống bắt đầu bằng cách tận dụng dữ liệu có cấu trúc mà các trang web đã xuất bản, bao gồm đánh dấu, nguồn cấp RSS và các định dạng bán cấu trúc khác thường được nhúng trong các trang web. Điều này có nghĩa là các nhà xuất bản không cần phải xây dựng lại toàn bộ cơ sở hạ tầng nội dung của họ.
Xử lý và lưu trữ dữ liệu: NLWeb bao gồm các công cụ để thêm dữ liệu có cấu trúc này vào cơ sở dữ liệu vector, cho phép tìm kiếm và truy xuất ngữ nghĩa hiệu quả. Hệ thống hỗ trợ tất cả các tùy chọn cơ sở dữ liệu vector chính, cho phép các nhà phát triển lựa chọn giải pháp phù hợp nhất với yêu cầu kỹ thuật và quy mô của họ.
Lớp tăng cường AI: LLM sau đó tăng cường dữ liệu được lưu trữ này bằng kiến thức và ngữ cảnh bên ngoài. Ví dụ, khi người dùng truy vấn về nhà hàng, hệ thống sẽ tự động phân lớp thông tin chi tiết về địa lý, đánh giá và thông tin liên quan bằng cách kết hợp nội dung vectơ hóa với khả năng của LLM để cung cấp phản hồi toàn diện, thông minh thay vì chỉ truy xuất dữ liệu đơn giản.
Tạo giao diện chung: Kết quả là một giao diện ngôn ngữ tự nhiên phục vụ cho cả người dùng và tác nhân AI. Khách truy cập có thể đặt câu hỏi bằng tiếng Anh thông thường và nhận được phản hồi đàm thoại, trong khi các hệ thống AI có thể truy cập và truy vấn thông tin của trang web theo chương trình thông qua khuôn khổ MCP.
Cách tiếp cận này cho phép bất kỳ trang web nào tham gia vào web đại lý mới nổi mà không cần phải đại tu kỹ thuật rộng rãi. Nó làm cho tìm kiếm và tương tác được hỗ trợ bởi AI dễ tiếp cận như việc tạo một trang web cơ bản trong những ngày đầu của Internet.
Bối cảnh giao thức AI mới nổi mang lại nhiều lựa chọn cho các doanh nghiệp
Có rất nhiều giao thức khác nhau đang xuất hiện trong lĩnh vực AI; không phải tất cả đều có chức năng giống nhau.
Ví dụ, Agent2Agent của Google là về việc cho phép các tác nhân nói chuyện với nhau. Nó là về việc sắp xếp và giao tiếp AI tác nhân và không tập trung cụ thể vào việc cho phép AI các trang web hiện có hoặc nội dung AI. Maria Gorskikh, người sáng lập và giám đốc điều hành của AIA và là cộng tác viên của nhóm Project NANDA tại MIT, đã giải thích với VentureBeat rằng A2A của Google cho phép chuyển giao tác vụ có cấu trúc giữa các tác nhân bằng cách sử dụng các lược đồ được xác định và các mô hình vòng đời.
Bà cho biết: “Mặc dù giao thức này là mã nguồn mở và không phụ thuộc vào mô hình theo thiết kế, nhưng các triển khai và công cụ hiện tại của nó lại gắn chặt với ngăn xếp Gemini của Google — khiến nó giống một khuôn khổ phối hợp phụ trợ hơn là một giao diện mục đích chung cho các dịch vụ dựa trên web”.
Một nỗ lực mới nổi khác là LLMs.txt . Mục tiêu của nó là giúp LLM truy cập nội dung web tốt hơn. Mặc dù trên bề mặt, nó có vẻ hơi giống NLWeb, nhưng thực ra không phải vậy.
Michael Ni, Phó chủ tịch kiêm Nhà phân tích chính tại Constellation Research, cho biết với VentureBeat: “NLWeb không cạnh tranh với LLMs.txt; nó tương đương hơn với các công cụ thu thập dữ liệu web cố gắng suy ra ý định từ một trang web”.
Krish Arvapally, đồng sáng lập và giám đốc công nghệ của Dappier, giải thích với VentureBeat rằng LLMs.txt cung cấp định dạng theo kiểu markdown với quyền đào tạo giúp trình thu thập dữ liệu LLM thu thập nội dung một cách phù hợp. NLWeb tập trung vào việc cho phép tương tác thời gian thực trực tiếp trên trang web của nhà xuất bản. Dap pier có nền tảng riêng tự động thu thập nguồn cấp dữ liệu RSS và dữ liệu có cấu trúc khác, sau đó cung cấp giao diện đàm thoại có thể nhúng và có thương hiệu. Nhà xuất bản có thể cung cấp nội dung của họ cho thị trường dữ liệu của họ.
MCP là giao thức lớn khác và ngày càng trở thành một tiêu chuẩn thực tế và là một thành phần nền tảng của NLWeb. Về cơ bản, MCP là một tiêu chuẩn mở để kết nối các hệ thống AI với các nguồn dữ liệu. Ni giải thích rằng theo quan điểm của Microsoft, MCP là lớp vận chuyển, nơi MCP và NLWeb cùng nhau cung cấp HTML và TCP/IP của web đại lý mở.
Nhà phân tích cấp cao của Forrester, Will McKeon-White nhận thấy một số lợi thế của NLWeb so với các lựa chọn khác.
McKeon-White nói với VentureBeat rằng: “Ưu điểm chính của NLWeb là khả năng kiểm soát tốt hơn cách các hệ thống AI ‘nhìn’ các thành phần tạo nên trang web, cho phép điều hướng tốt hơn và hiểu rõ hơn về công cụ”. “Điều này có thể giảm cả lỗi do hệ thống hiểu sai những gì chúng nhìn thấy trên trang web, cũng như giảm việc làm lại giao diện”.
Những người dùng sớm đã thấy được triển vọng của NLWeb đối với AI đại lý doanh nghiệp
Microsoft không chỉ tung NLWeb qua bức tường thành và hy vọng ai đó sẽ sử dụng nó.
Microsoft hiện đã có nhiều tổ chức tham gia và sử dụng NLWeb, bao gồm Chicago Public Media, Allrecipes, Eventbrite, Hearst (Delish), O’Reilly Media, Tripadvisor và Shopify.
Andrew Odewahn, Giám đốc Công nghệ tại O’Reilly Media là một trong những người áp dụng sớm và nhìn thấy triển vọng thực sự của NLWeb.
Odewahn nói với VentureBeat rằng: “NLWeb tận dụng các phương pháp hay nhất và tiêu chuẩn được phát triển trong thập kỷ qua trên web mở và cung cấp chúng cho các LLM”. “Các công ty từ lâu đã dành thời gian để tối ưu hóa loại siêu dữ liệu này cho SEO và các mục đích tiếp thị khác, nhưng giờ đây họ có thể tận dụng nguồn dữ liệu phong phú này để khiến AI nội bộ của họ thông minh hơn và có khả năng hơn với NLWeb”.
Theo quan điểm của ông, NLWeb có giá trị đối với các doanh nghiệp với tư cách là người tiêu dùng thông tin công khai và là đơn vị xuất bản thông tin riêng tư. Ông lưu ý rằng hầu như mọi công ty đều có các nỗ lực bán hàng và tiếp thị mà họ có thể cần phải hỏi, “Công ty này làm gì?” hoặc “Sản phẩm này là gì?”
Odewahn cho biết: “NLWeb cung cấp một cách tuyệt vời để mở thông tin này cho các LLM nội bộ của bạn để bạn không phải đi săn và tìm kiếm để tìm thấy nó. Là một nhà xuất bản, bạn có thể thêm siêu dữ liệu của riêng mình bằng cách sử dụng tiêu chuẩn schema.org và sử dụng NLWeb nội bộ như một máy chủ MCP để cung cấp cho mục đích sử dụng nội bộ”.
Việc sử dụng NLWeb cũng không hẳn là một việc khó khăn. Odewahn lưu ý rằng nhiều tổ chức có lẽ đã sử dụng nhiều tiêu chuẩn mà NLWeb dựa vào.
“Không có nhược điểm nào khi dùng thử ngay bây giờ vì NLWeb có thể chạy hoàn toàn trong cơ sở hạ tầng của bạn”, ông nói. “Đây là phần mềm nguồn mở đáp ứng tốt nhất dữ liệu nguồn mở, vì vậy bạn không mất gì và có thể đạt được nhiều lợi ích khi dùng thử ngay bây giờ”.
Các doanh nghiệp có nên tham gia NLWeb ngay bây giờ hay nên chờ đợi?
Nhà phân tích nghiên cứu Constellation Michael Ni có quan điểm khá tích cực về NLWeb. Tuy nhiên, điều đó không có nghĩa là các doanh nghiệp cần áp dụng ngay lập tức.
Ni lưu ý rằng NLWeb đang trong giai đoạn đầu của sự trưởng thành và các doanh nghiệp nên mong đợi 2-3 năm để có thể áp dụng đáng kể. Ông gợi ý rằng các công ty tiên tiến có nhu cầu cụ thể, chẳng hạn như thị trường năng động, có thể xem xét thử nghiệm với khả năng tham gia và giúp định hình tiêu chuẩn.
Ni cho biết: “Đây là thông số kỹ thuật mang tính tầm nhìn với tiềm năng rõ ràng, nhưng cần có sự xác thực của hệ sinh thái, công cụ triển khai và tích hợp tham chiếu trước khi có thể tiếp cận các chương trình thí điểm doanh nghiệp chính thống”.
Những người khác có quan điểm tích cực hơn về việc áp dụng. Gorskikh đề xuất áp dụng cách tiếp cận nhanh hơn để đảm bảo doanh nghiệp của bạn không bị tụt hậu.
“Nếu bạn là một doanh nghiệp có bề mặt nội dung lớn, cơ sở kiến thức nội bộ hoặc dữ liệu có cấu trúc, thì việc thử nghiệm NLWeb ngay bây giờ là một bước đi thông minh và cần thiết để luôn đi đầu”, cô nói. “Đây không phải là thời điểm chờ đợi — mà giống như việc áp dụng sớm các API hoặc ứng dụng di động hơn”.
Tuy nhiên, bà lưu ý rằng các ngành công nghiệp được quản lý cần phải hành động thận trọng. Các ngành như bảo hiểm, ngân hàng và chăm sóc sức khỏe nên hoãn việc sử dụng sản xuất cho đến khi có một hệ thống xác minh và khám phá phi tập trung, trung lập. Đã có những nỗ lực giai đoạn đầu giải quyết vấn đề này — chẳng hạn như dự án NANDA tại MIT mà Gorskikh tham gia, đang xây dựng một hệ thống đăng ký và danh tiếng phi tập trung, mở cho các dịch vụ đại lý.
Tất cả những điều này có ý nghĩa gì đối với các nhà lãnh đạo AI doanh nghiệp?
Đối với các nhà lãnh đạo AI doanh nghiệp, NLWeb là một bước ngoặt và là công nghệ không nên bỏ qua.
AI sẽ tương tác với trang web của bạn và bạn cần AI kích hoạt nó. NLWeb là một cách sẽ đặc biệt hấp dẫn đối với các nhà xuất bản, giống như RSS đã trở thành một thứ bắt buộc phải có đối với tất cả các trang web vào đầu những năm 2000. Trong một vài năm nữa, người dùng sẽ chỉ mong đợi nó ở đó; họ sẽ mong đợi có thể tìm kiếm và tìm thấy mọi thứ, trong khi các hệ thống AI đại lý sẽ cần có khả năng truy cập vào nội dung.