Đối với nhiều thế hệ cơ sở dữ liệu, tính toán và lưu trữ luôn được kết hợp chặt chẽ. Điều đó gây ra mọi loại vấn đề về khả năng mở rộng và dữ liệu silo cho các doanh nghiệp. Vào năm 2023, Microsoft Fabric lần đầu tiên được giới thiệu như một chiến lược giúp vượt qua thách thức đó. Ý tưởng cơ bản đằng sau Microsoft Fabric là trở thành một lớp dữ liệu chung trên các công cụ dữ liệu và phân tích của Microsoft. Vào tháng 11 năm 2024, Microsoft Fabric đã mở rộng với sự hỗ trợ cho nền tảng cơ sở dữ liệu giao dịch Azure SQL.
Microsoft, giống như các đối thủ của mình tại Google và Amazon, có rất nhiều nền tảng cơ sở dữ liệu khác nhau. Trong khi Azure SQL được sử dụng rộng rãi, khi nói đến AI, có một nền tảng cơ sở dữ liệu khác có ảnh hưởng hơn và đó là CosmosDB. Tại hội nghị Build 2025 ngày hôm nay, Microsoft đã công bố rằng CosmosDB cuối cùng cũng sẽ có mặt trên Microsoft Fabric. CosmosDB là một trong những cơ sở dữ liệu quan trọng nhất hiện đang được sử dụng cho AI vì đây là cơ sở dữ liệu nền tảng cho dịch vụ ChatGPT của OpenAI. CosmosDB cũng đang được thúc đẩy thông qua tích hợp với Azure AI Foundry, cung cấp quyền truy cập trực tiếp hơn cho AI tác nhân vào dữ liệu.
Ngoài ra còn có một loạt các bản cập nhật dữ liệu bổ sung bao gồm hỗ trợ cho Microsoft Copilot trong nền tảng trí tuệ kinh doanh PowerBI. Cơ sở dữ liệu SQL Server 2025 đang được xem trước và chỉ mục vectơ DiskANN (Disk approximate Nearest Neighbor) đang được mã nguồn mở.
Những cải tiến này trực tiếp giải quyết sự phức tạp của tích hợp gây khó khăn cho các nhóm dữ liệu doanh nghiệp khi xây dựng các ứng dụng AI. Trọng tâm chính là loại bỏ tình trạng phân mảnh dữ liệu cản trở các sáng kiến AI của doanh nghiệp.
Arun Ulag, Phó chủ tịch tập đoàn Azure Data tại Microsoft, chia sẻ với VentureBeat: “Khi tôi nói chuyện với khách hàng, thông điệp mà tôi liên tục nhận được là hãy thống nhất, tôi là Giám đốc thông tin, tôi không muốn trở thành Giám đốc tích hợp giúp chuyển đổi AI thành lợi thế cạnh tranh của mình”.
Fabric tăng tốc AI doanh nghiệp bằng cách loại bỏ các kho dữ liệu
Microsoft Fabric, nền tảng dữ liệu hợp nhất của công ty, tiếp tục đà tăng trưởng nhanh chóng bằng cách tập hợp các sản phẩm trước đây tách biệt thành một hệ sinh thái gắn kết.
Ulag cho biết: “Chúng tôi đang tập hợp tất cả các sản phẩm của mình lại với nhau và hợp nhất chúng thành một sản phẩm duy nhất, đó là Microsoft Fabric”. “Theo một số cách, bạn có thể nghĩ về Fabric gần giống như những gì chúng tôi đã làm với Office 30 năm trước”.
Chiến lược này rõ ràng đã tạo được tiếng vang với các doanh nghiệp. Ulag cho biết Microsoft Fabric hiện có hơn 21.000 tổ chức là khách hàng trả phí trên toàn thế giới, bao gồm 70% trong số Fortune 500.
“Nó đang phát triển rất, rất nhanh,” ông nói.
CosmosDB trong Fabric loại bỏ chi phí cơ sở hạ tầng NoSQL
Điểm mới đáng chú ý nhất của Fabric là CosmosDB, cơ sở dữ liệu tài liệu NoSQL của Microsoft hỗ trợ nhiều ứng dụng AI nổi tiếng.
Ulag cho biết: “CosmosDB đang dần trở thành cơ sở dữ liệu được lựa chọn cho khối lượng công việc AI của thế giới”. “Bản thân ChatGPT được xây dựng trên CosmosDB… Cửa hàng thương mại điện tử của Walmart cũng chạy trên CosmosDB”.
Bằng cách đưa CosmosDB vào Fabric, Microsoft cho phép các tổ chức triển khai cơ sở dữ liệu NoSQL mà không cần quản lý cơ sở hạ tầng phức tạp. Một thách thức chính của việc có phương pháp tính toán và lưu trữ tách biệt là duy trì hiệu suất mà không có độ trễ.
Microsoft đã thực hiện các bước kỹ thuật rất cụ thể để duy trì hiệu suất thông qua hệ thống lưu trữ đệm sáng tạo.
“Bên trong Fabric, chúng tôi duy trì một bộ đệm hiệu suất cao, xử lý tất cả các bản cập nhật nhanh mà CosmosDB thực hiện”, Ulag giải thích. “Chúng tôi có một cơ chế đồng bộ hóa rất nhanh, hoàn toàn minh bạch với khách hàng, nơi dữ liệu được sao chép gần như theo thời gian thực vào OneLake”.
Phương pháp này mang lại thời gian phản hồi tính bằng mili giây cho các ứng dụng AI đồng thời loại bỏ các tác vụ quản lý cơ sở hạ tầng.
Tại sao định dạng dữ liệu nguồn mở là chìa khóa thành công của Fabric
Trong khi Microsoft kết nối tất cả các sản phẩm dữ liệu của mình thông qua chiến lược Fabric thì công nghệ OneLake mới thực sự lưu trữ dữ liệu.
Có sự phức tạp to lớn trong việc có một hồ dữ liệu thống nhất xử lý nhiều loại dữ liệu và định dạng khác nhau từ SQL, NoSQL và dữ liệu phi cấu trúc. Đây là một thách thức mà Microsoft đang giải quyết bằng phương pháp nguồn mở.
Ulag cho biết: “Microsoft đã hoàn toàn áp dụng các định dạng dữ liệu nguồn mở, vì vậy mọi thứ trong Fabric, bất kể khối lượng công việc nào, theo mặc định, luôn nằm trong Apache Parquet và Delta Lake”. “Đây thực sự là một sản phẩm thống nhất, với kiến trúc thống nhất và mô hình kinh doanh thống nhất, với tất cả dữ liệu nằm trong một hồ dữ liệu SaaS toàn cầu, chính là OneLake ở định dạng dữ liệu nguồn mở”.
Việc tối ưu hóa này có nghĩa là tất cả các dịch vụ Fabric, từ SQL đến Power BI đến CosmosDB, đều có thể truy cập cùng một dữ liệu cơ bản mà không cần chuyển đổi hoặc sao chép, loại bỏ tình trạng giảm hiệu suất thường gặp ở các định dạng mở.
Phiên bản mã nguồn mở của DiskANN mang đến khả năng tìm kiếm vectơ cấp doanh nghiệp cho tất cả
Microsoft không chỉ sử dụng mã nguồn mở cho các định dạng dữ liệu mà còn đóng góp mã của riêng mình nữa.
Tại Build, Microsoft thông báo rằng họ đang mở nguồn công nghệ tìm kiếm vectơ DiskANN. Quyết định mở nguồn DiskANN của Microsoft thể hiện sự đóng góp đáng kể cho hệ sinh thái AI, giúp khả năng tìm kiếm vectơ cấp doanh nghiệp có sẵn cho tất cả các nhà phát triển.
Ulag cho biết: “Chúng tôi có một khả năng vectơ rất, rất mạnh có tên là DiskANN, ban đầu nó được tạo ra trong Microsoft Research và được sử dụng trong Bing… được tích hợp vào CosmosDB và Fabric”.
DiskANN triển khai các thuật toán tìm kiếm lân cận gần nhất (ANN) được tối ưu hóa cho các hoạt động dựa trên đĩa, khiến nó trở nên lý tưởng cho các cơ sở dữ liệu vectơ quy mô lớn vượt quá giới hạn bộ nhớ. Bằng cách cung cấp mã nguồn mở cho DiskANN, Microsoft cho phép các nhà phát triển triển khai cùng một tìm kiếm vectơ hiệu suất cao được ChatGPT và các ứng dụng AI hàng đầu khác sử dụng. Điều này giúp giải quyết một trong những thách thức chính trong việc xây dựng các hệ thống tạo tăng cường truy xuất (RAG), trong đó việc tìm nội dung tương tự về mặt ngữ nghĩa một cách nhanh chóng là điều cần thiết để đưa phản hồi AI vào dữ liệu doanh nghiệp.
Ulag cho biết: “Chúng tôi cho phép mọi người đều có thể tận dụng những lợi ích của kho lưu trữ vector mà chúng tôi đang sử dụng nội bộ”.
Tại sao điều này lại quan trọng đối với các nhà lãnh đạo dữ liệu doanh nghiệp
Đối với các doanh nghiệp dẫn đầu trong việc áp dụng AI, những thông báo này cho phép tạo ra các ứng dụng phức tạp hơn, tích hợp liền mạch nhiều loại dữ liệu.
Sự phức tạp và thách thức khi xử lý các silo dữ liệu không chỉ liên quan đến các vị trí khác nhau mà còn liên quan đến các định dạng khác nhau. Sự phát triển liên tục của Microsoft Fabric giải quyết trực tiếp mối quan tâm đó theo cách mà không có nhà cung cấp dịch vụ siêu quy mô nào khác hiện nay làm được.
Việc tập trung và cam kết với các tiêu chuẩn nguồn mở cũng rất quan trọng đối với các doanh nghiệp vì nó loại bỏ một số rủi ro bị khóa có thể xảy ra nếu dữ liệu bị kẹt trong các định dạng độc quyền.
Khi các doanh nghiệp ngày càng cạnh tranh về khả năng AI, cách tiếp cận thống nhất của Microsoft sẽ xóa bỏ rào cản đáng kể đối với sự đổi mới. Các tổ chức áp dụng sự tích hợp này có thể chuyển trọng tâm từ việc duy trì các đường ống dữ liệu phức tạp sang tạo ra các ứng dụng AI mang lại giá trị kinh doanh hữu hình—có khả năng vượt qua các đối thủ cạnh tranh vẫn đang vật lộn với các kiến trúc phân mảnh.