Thứ Tư, Tháng 6 18, 2025

Cắt giảm lãng phí đám mây ở quy mô lớn: Akamai tiết kiệm 70% bằng cách sử dụng các tác nhân AI được điều phối bởi kubernetes

Đây là vấn đề nghiêm trọng hơn đối với Akamai Technologies : Công ty có cơ sở hạ tầng đám mây lớn và phức tạp trên nhiều đám mây, chưa kể đến nhiều yêu cầu bảo mật nghiêm ngặt.

Để giải quyết vấn đề này, nhà cung cấp dịch vụ phân phối nội dung và an ninh mạng đã chuyển sang nền tảng tự động hóa Kubernetes  Cast AI , với các tác nhân AI giúp tối ưu hóa chi phí, bảo mật và tốc độ trên các môi trường đám mây. 

Cuối cùng, nền tảng này đã giúp Akamai cắt giảm từ 40% đến 70% chi phí đám mây, tùy thuộc vào khối lượng công việc. 

“Chúng tôi cần một cách liên tục để tối ưu hóa cơ sở hạ tầng và giảm chi phí đám mây mà không ảnh hưởng đến hiệu suất”, Dekel Shavit, giám đốc cấp cao về kỹ thuật đám mây tại Akamai, nói với VentureBeat. “Chúng tôi là những người xử lý các sự kiện bảo mật. Trì hoãn không phải là một lựa chọn. Nếu chúng tôi không thể phản ứng với một cuộc tấn công bảo mật theo thời gian thực, chúng tôi đã thất bại”.

Các tác nhân chuyên biệt giám sát, phân tích và hành động

Kubernetes quản lý cơ sở hạ tầng chạy ứng dụng, giúp triển khai, mở rộng quy mô và quản lý ứng dụng dễ dàng hơn, đặc biệt là trong kiến ​​trúc đám mây gốc và kiến ​​trúc vi dịch vụ.

Cast AI đã tích hợp vào hệ sinh thái Kubernetes để giúp khách hàng mở rộng quy mô cụm và khối lượng công việc của họ, lựa chọn cơ sở hạ tầng tốt nhất và quản lý vòng đời tính toán, nhà sáng lập kiêm giám đốc điều hành Laurent Gil giải thích. Nền tảng cốt lõi của nó là Application Performance Automation (APA), hoạt động thông qua một nhóm các tác nhân chuyên biệt liên tục giám sát, phân tích và thực hiện hành động để cải thiện hiệu suất, bảo mật, hiệu quả và chi phí của ứng dụng. Các công ty chỉ cung cấp tính toán mà họ cần từ AWS, Microsoft, Google hoặc các công ty khác.

APA được hỗ trợ bởi một số mô hình học máy (ML) với học tăng cường (RL) dựa trên dữ liệu lịch sử và các mẫu đã học, được tăng cường bởi một ngăn xếp khả năng quan sát và phương pháp tìm kiếm. Nó được kết hợp với các công cụ cơ sở hạ tầng dưới dạng mã (IaC) trên một số đám mây, biến nó thành một nền tảng hoàn toàn tự động.

Gil giải thích rằng APA được xây dựng dựa trên nguyên lý rằng khả năng quan sát chỉ là điểm khởi đầu; như ông gọi, khả năng quan sát là “nền tảng, không phải là mục tiêu”. Cast AI cũng hỗ trợ việc áp dụng gia tăng, do đó khách hàng không phải loại bỏ và thay thế; họ có thể tích hợp vào các công cụ và quy trình làm việc hiện có. Hơn nữa, không có gì rời khỏi cơ sở hạ tầng của khách hàng; tất cả các phân tích và hành động đều diễn ra trong các cụm Kubernetes chuyên dụng của họ, cung cấp nhiều bảo mật và khả năng kiểm soát hơn.

Gil cũng nhấn mạnh tầm quan trọng của việc lấy con người làm trung tâm. Ông cho biết “Tự động hóa bổ sung cho việc ra quyết định của con người”, với APA duy trì quy trình làm việc lấy con người làm trung gian.

Những thách thức độc đáo của Akamai

Shavit giải thích rằng cơ sở hạ tầng đám mây lớn và phức tạp của Akamai hỗ trợ mạng phân phối nội dung (CDN) và các dịch vụ an ninh mạng được cung cấp cho “một số khách hàng và ngành công nghiệp khó tính nhất thế giới” đồng thời tuân thủ các thỏa thuận về mức dịch vụ (SLA) và yêu cầu về hiệu suất nghiêm ngặt.

Ông lưu ý rằng đối với một số dịch vụ mà họ sử dụng, họ có thể là khách hàng lớn nhất của nhà cung cấp, đồng thời nói thêm rằng họ đã thực hiện “hàng loạt hoạt động thiết kế và tái thiết cốt lõi” với nhà cung cấp dịch vụ siêu quy mô của mình để hỗ trợ nhu cầu của họ. 

Ngoài ra, Akamai phục vụ khách hàng ở nhiều quy mô và ngành nghề khác nhau, bao gồm các tổ chức tài chính lớn và các công ty thẻ tín dụng. Các dịch vụ của công ty liên quan trực tiếp đến tình hình an ninh của khách hàng.

Cuối cùng, Akamai cần cân bằng tất cả sự phức tạp này với chi phí. Shavit lưu ý rằng các cuộc tấn công thực tế vào khách hàng có thể thúc đẩy năng lực lên 100X hoặc 1.000X trên các thành phần cụ thể của cơ sở hạ tầng của họ. Nhưng “việc mở rộng năng lực đám mây của chúng tôi lên 1.000X trước là không khả thi về mặt tài chính”, ông nói. 

Nhóm của ông đã cân nhắc việc tối ưu hóa về mặt mã, nhưng tính phức tạp vốn có của mô hình kinh doanh đòi hỏi phải tập trung vào chính cơ sở hạ tầng cốt lõi. 

Tự động tối ưu hóa toàn bộ cơ sở hạ tầng Kubernetes

Shavit giải thích rằng Akamai thực sự cần một nền tảng tự động hóa Kubernetes có thể tối ưu hóa chi phí vận hành toàn bộ cơ sở hạ tầng cốt lõi của mình theo thời gian thực trên nhiều đám mây và mở rộng quy mô ứng dụng theo nhu cầu thay đổi liên tục. Nhưng tất cả những điều này phải được thực hiện mà không làm giảm hiệu suất ứng dụng.

Trước khi triển khai Cast, Shavit lưu ý rằng nhóm DevOps của Akamai đã điều chỉnh thủ công tất cả khối lượng công việc Kubernetes của mình chỉ vài lần một tháng. Với quy mô và tính phức tạp của cơ sở hạ tầng, điều này rất khó khăn và tốn kém. Chỉ phân tích khối lượng công việc một cách rời rạc, rõ ràng là họ đã bỏ lỡ bất kỳ tiềm năng tối ưu hóa thời gian thực nào. 

Shavit cho biết: “Hiện nay, hàng trăm tác nhân Cast thực hiện việc điều chỉnh tương tự, nhưng họ thực hiện mỗi giây mỗi ngày”. 

Các tính năng cốt lõi của APA mà Akamai sử dụng là tự động điều chỉnh quy mô, tự động hóa Kubernetes chuyên sâu với tính năng đóng gói bin (giảm thiểu số lượng bin được sử dụng), tự động lựa chọn các phiên bản tính toán tiết kiệm chi phí nhất, điều chỉnh quy mô khối lượng công việc, tự động hóa phiên bản Spot trong toàn bộ vòng đời phiên bản và khả năng phân tích chi phí.

Shavit cho biết: “Chúng tôi đã có được thông tin chi tiết về phân tích chi phí sau hai phút tích hợp, đây là điều mà chúng tôi chưa từng thấy trước đây”. “Sau khi các tác nhân đang hoạt động được triển khai, quá trình tối ưu hóa sẽ tự động diễn ra và khoản tiết kiệm bắt đầu xuất hiện”.

Các trường hợp Spot — nơi các doanh nghiệp có thể truy cập vào dung lượng đám mây chưa sử dụng với giá chiết khấu — rõ ràng là có ý nghĩa về mặt kinh doanh, nhưng chúng lại trở nên phức tạp do khối lượng công việc phức tạp của Akamai, đặc biệt là Apache Spark, Shavit lưu ý. Điều này có nghĩa là họ cần phải thiết kế quá mức khối lượng công việc hoặc giao thêm nhiều nhân lực hơn cho chúng, điều này hóa ra lại phản trực giác về mặt tài chính. 

Với Cast AI, họ có thể sử dụng các phiên bản spot trên Spark mà không cần “đầu tư bằng không” từ nhóm kỹ thuật hoặc hoạt động. Giá trị của các phiên bản spot là “siêu rõ ràng”; họ chỉ cần tìm đúng công cụ để có thể sử dụng chúng. Đây là một trong những lý do họ tiến lên với Cast, Shavit lưu ý. 

Trong khi việc tiết kiệm gấp 2 hoặc 3 lần hóa đơn điện toán đám mây là điều tuyệt vời, Shavit chỉ ra rằng tự động hóa mà không cần can thiệp thủ công là “vô giá”. Nó đã mang lại khoản tiết kiệm thời gian “khổng lồ”.

Trước khi triển khai Cast AI, nhóm của ông “liên tục thay đổi các nút và công tắc” để đảm bảo rằng môi trường sản xuất và khách hàng của họ đáp ứng được dịch vụ mà họ cần đầu tư. 

Shavit cho biết: “Lợi ích lớn nhất là chúng tôi không cần phải quản lý cơ sở hạ tầng của mình nữa. Đội ngũ đại lý của Cast hiện đang làm việc này cho chúng tôi. Điều đó giúp nhóm của chúng tôi rảnh tay để tập trung vào những gì quan trọng nhất: Phát hành các tính năng nhanh hơn cho khách hàng của chúng tôi”.

BÌNH LUẬN

Vui lòng nhập bình luận của bạn
Vui lòng nhập tên của bạn ở đây

Tin nóng tuần này

Ren Zhengfei: Huawei và chiến lược AI thầm lặng của Trung Quốc

CEO Huawei chia sẻ về tương lai trí tuệ...

Groq vừa làm cho Hugging Face nhanh hơn nhiều — và nó sẽ có trên AWS và Google

Công ty đã công bố vào thứ Hai rằng...

Ericsson và AWS bắt tay tạo ra mạng di động “tự chữa lành” nhờ AI

Liên minh giữa hai ông lớn viễn thông và...

Meta đầu tư 14,8 tỷ USD vào Scale AI: Cảnh báo “lách luật” và độc quyền AI?

Thương vụ trị giá 14,8 tỷ USD không chỉ...

Chủ đề

Bài viết liên quan

Danh mục phổ biến

Language »