Thu hẹp một exaflop: Từ Frontier đến Blackwell
Có một vài điều về thông báo này khiến tôi chú ý. Đầu tiên, máy tính đầu tiên trên thế giới có khả năng thực hiện exaflop chỉ mới được lắp đặt cách đây vài năm, vào năm 2022, tại Phòng thí nghiệm quốc gia Oak Ridge. Để so sánh, siêu máy tính “Frontier” do HPE chế tạo và được cung cấp năng lượng bởi GPU và CPU AMD, ban đầu bao gồm 74 giá đỡ máy chủ. Hệ thống Nvidia mới đã đạt được mật độ hiệu suất cao hơn khoảng 73X chỉ trong ba năm, tương đương với hiệu suất tăng gấp ba lần mỗi năm. Sự tiến bộ này phản ánh sự tiến bộ đáng kể về mật độ tính toán, hiệu quả năng lượng và thiết kế kiến trúc.
Thứ hai, cần phải nói rằng trong khi cả hai hệ thống đều đạt được cột mốc exascale, chúng được xây dựng cho những thách thức khác nhau, một được tối ưu hóa cho tốc độ, một được tối ưu hóa cho độ chính xác. Thông số kỹ thuật exaflop của Nvidia dựa trên toán học có độ chính xác thấp hơn — cụ thể là các phép toán dấu phẩy động 4 bit và 8 bit — được coi là tối ưu cho khối lượng công việc AI bao gồm các tác vụ như đào tạo và chạy các mô hình ngôn ngữ lớn (LLM). Các phép tính này ưu tiên tốc độ hơn độ chính xác. Ngược lại, xếp hạng exaflop cho Frontier đạt được bằng cách sử dụng toán học có độ chính xác kép 64 bit, tiêu chuẩn vàng cho các mô phỏng khoa học trong đó độ chính xác là rất quan trọng.
Chúng tôi đã đi một chặng đường dài (rất nhanh)
Mức độ tiến bộ này có vẻ gần như không thể tin được, đặc biệt là khi tôi nhớ lại tình trạng tiên tiến khi tôi bắt đầu sự nghiệp trong ngành máy tính. Công việc chuyên môn đầu tiên của tôi là lập trình viên trên DEC KL 1090. Chiếc máy này, một phần của dòng máy chủ lớn chia sẻ thời gian PDP-10 của DEC, cung cấp 1,8 triệu lệnh mỗi giây (MIPS). Bên cạnh hiệu suất CPU, máy được kết nối với màn hình ống tia âm cực (CRT) thông qua cáp có dây. Không có khả năng đồ họa, chỉ có văn bản sáng trên nền tối. Và tất nhiên, không có Internet. Người dùng từ xa kết nối qua đường dây điện thoại bằng modem chạy ở tốc độ lên tới 1.200 bit mỗi giây.
Tính toán nhiều hơn 500 tỷ lần
Trong khi so sánh MIPS với FLOPS mang lại cảm nhận chung về sự tiến bộ, điều quan trọng cần nhớ là các số liệu này đo lường các khối lượng công việc tính toán khác nhau. MIPS phản ánh tốc độ xử lý số nguyên, hữu ích cho tính toán mục đích chung, đặc biệt là trong các ứng dụng kinh doanh. FLOPS đo hiệu suất dấu phẩy động rất quan trọng đối với khối lượng công việc khoa học và quá trình xử lý số phức tạp đằng sau AI hiện đại, chẳng hạn như toán học ma trận và đại số tuyến tính được sử dụng để đào tạo và chạy các mô hình học máy (ML).
Mặc dù không phải là sự so sánh trực tiếp, nhưng quy mô tuyệt đối của sự khác biệt giữa MIPS khi đó và FLOPS hiện nay cung cấp một minh họa mạnh mẽ về sự tăng trưởng nhanh chóng trong hiệu suất tính toán. Sử dụng những điều này như một phương pháp ước lượng thô để đo công việc được thực hiện, hệ thống Nvidia mới mạnh hơn khoảng 500 tỷ lần so với máy DEC. Bước nhảy vọt đó minh họa cho sự tăng trưởng theo cấp số nhân của sức mạnh tính toán trong một sự nghiệp chuyên môn duy nhất và đặt ra câu hỏi: Nếu có thể đạt được nhiều tiến bộ như vậy trong 40 năm, thì 5 năm tiếp theo có thể mang lại điều gì?
Về phần mình, Nvidia đã đưa ra một số manh mối. Tại GTC, công ty đã chia sẻ lộ trình dự đoán rằng hệ thống full-rack thế hệ tiếp theo của họ dựa trên kiến trúc “Vera Rubin” Ultra sẽ mang lại hiệu suất gấp 14 lần so với hệ thống rack Blackwell Ultra trong năm nay, đạt khoảng 14 đến 15 exaflop trong công việc được tối ưu hóa bằng AI trong một hoặc hai năm tới.
Hiệu quả cũng đáng chú ý không kém. Đạt được mức hiệu suất này trong một giá đỡ duy nhất có nghĩa là ít không gian vật lý hơn cho mỗi đơn vị công việc, ít vật liệu hơn và có khả năng sử dụng năng lượng thấp hơn cho mỗi hoạt động, mặc dù nhu cầu điện năng tuyệt đối của các hệ thống này vẫn rất lớn.
Liệu AI có thực sự cần đến sức mạnh tính toán như vậy không?
Mặc dù những cải thiện về hiệu suất như vậy thực sự ấn tượng, nhưng ngành công nghiệp AI hiện đang phải vật lộn với một câu hỏi cơ bản: Sức mạnh tính toán thực sự cần thiết là bao nhiêu và phải trả giá như thế nào? Cuộc đua xây dựng các trung tâm dữ liệu AI mới khổng lồ đang được thúc đẩy bởi nhu cầu ngày càng tăng của điện toán exascale và các mô hình AI ngày càng có khả năng hơn.
Nỗ lực tham vọng nhất là Dự án Stargate trị giá 500 tỷ đô la, hình dung 20 trung tâm dữ liệu trên khắp Hoa Kỳ, mỗi trung tâm trải rộng nửa triệu feet vuông. Một làn sóng các dự án siêu quy mô khác đang được tiến hành hoặc đang trong giai đoạn lập kế hoạch trên khắp thế giới, khi các công ty và quốc gia tranh giành để đảm bảo họ có cơ sở hạ tầng hỗ trợ khối lượng công việc AI của tương lai.
Một số nhà phân tích hiện lo ngại rằng chúng ta có thể đang xây dựng quá mức năng lực trung tâm dữ liệu AI. Mối lo ngại gia tăng sau khi phát hành R1, một mô hình lý luận từ DeepSeek của Trung Quốc yêu cầu ít tính toán hơn đáng kể so với nhiều đối thủ cạnh tranh. Microsoft sau đó đã hủy hợp đồng thuê với nhiều nhà cung cấp trung tâm dữ liệu, làm dấy lên suy đoán rằng công ty có thể đang hiệu chỉnh lại kỳ vọng của mình đối với nhu cầu cơ sở hạ tầng AI trong tương lai.
Tuy nhiên, The Register cho rằng sự thoái lui này có thể liên quan nhiều hơn đến một số trung tâm dữ liệu AI được lên kế hoạch không có đủ khả năng mạnh mẽ để hỗ trợ nhu cầu về điện và làm mát của các hệ thống AI thế hệ tiếp theo. Các mô hình AI hiện đang đẩy giới hạn của cơ sở hạ tầng hiện tại có thể hỗ trợ. MIT Technology Review đưa tin rằng đây có thể là lý do khiến nhiều trung tâm dữ liệu ở Trung Quốc đang gặp khó khăn và thất bại, vì được xây dựng theo các thông số kỹ thuật không tối ưu cho nhu cầu hiện tại, chứ chưa nói đến nhu cầu của vài năm tới.
Suy luận AI đòi hỏi nhiều FLOP hơn
Các mô hình lý luận thực hiện hầu hết công việc của chúng tại thời điểm chạy thông qua một quá trình được gọi là suy luận. Các mô hình này cung cấp năng lượng cho một số ứng dụng tiên tiến và tốn nhiều tài nguyên nhất hiện nay, bao gồm trợ lý nghiên cứu chuyên sâu và làn sóng mới nổi của các hệ thống AI tác nhân.
Trong khi DeepSeek-R1 ban đầu khiến ngành công nghiệp lo sợ rằng AI trong tương lai có thể cần ít sức mạnh tính toán hơn, CEO của Nvidia Jensen Huang đã phản bác mạnh mẽ. Phát biểu với CNBC, ông phản bác lại nhận thức này: “Đó là kết luận hoàn toàn ngược lại với những gì mọi người đã có.” Ông nói thêm rằng AI có lý luận tiêu thụ nhiều điện toán hơn 100X so với AI không có lý luận.
Khi AI tiếp tục phát triển từ các mô hình lý luận đến các tác nhân tự động và hơn thế nữa, nhu cầu về điện toán có khả năng sẽ tăng vọt một lần nữa. Những đột phá tiếp theo có thể không chỉ đến trong ngôn ngữ hoặc tầm nhìn, mà còn trong sự phối hợp của tác nhân AI, mô phỏng hợp nhất hoặc thậm chí là bản sao kỹ thuật số quy mô lớn, mỗi đột phá đều có thể thực hiện được nhờ bước nhảy vọt về khả năng tính toán mà chúng ta vừa chứng kiến.
Có vẻ đúng lúc, OpenAI vừa công bố khoản tài trợ mới trị giá 40 tỷ đô la , đây là vòng tài trợ công nghệ tư nhân lớn nhất từng được ghi nhận. Công ty cho biết trong một bài đăng trên blog rằng khoản tài trợ này “cho phép chúng tôi mở rộng ranh giới nghiên cứu AI hơn nữa, mở rộng cơ sở hạ tầng máy tính của chúng tôi và cung cấp các công cụ ngày càng mạnh mẽ hơn cho 500 triệu người sử dụng ChatGPT mỗi tuần”.
Tại sao lại có quá nhiều vốn đổ vào AI? Các lý do bao gồm từ khả năng cạnh tranh đến an ninh quốc gia. Mặc dù có một yếu tố cụ thể nổi bật, như được minh họa bằng tiêu đề của McKinsey : “AI có thể tăng lợi nhuận của công ty lên 4,4 nghìn tỷ đô la một năm”.
Tiếp theo là gì? Ai cũng có thể đoán được
Về bản chất, hệ thống thông tin là về việc trừu tượng hóa sự phức tạp, dù là thông qua hệ thống định tuyến xe cấp cứu mà tôi từng viết bằng Fortran, công cụ báo cáo thành tích học tập của học sinh được xây dựng bằng COBOL hay hệ thống AI hiện đại đẩy nhanh quá trình khám phá thuốc. Mục tiêu luôn giống nhau: Để hiểu rõ hơn về thế giới.
Bây giờ, với AI mạnh mẽ bắt đầu xuất hiện, chúng ta đang vượt qua một ngưỡng. Lần đầu tiên, chúng ta có thể có sức mạnh tính toán và trí thông minh để giải quyết các vấn đề mà trước đây nằm ngoài tầm với của con người.
Nhà báo Kevin Roose của tờ New York Times gần đây đã ghi lại khoảnh khắc này : “Mỗi tuần, tôi đều gặp các kỹ sư và doanh nhân làm việc trong lĩnh vực AI, họ nói với tôi rằng sự thay đổi – thay đổi lớn, thay đổi làm rung chuyển thế giới, loại chuyển đổi mà chúng ta chưa từng thấy trước đây – sắp xảy ra”. Và điều đó thậm chí còn chưa tính đến những đột phá xuất hiện mỗi tuần.
Chỉ trong vài ngày qua, chúng ta đã thấy GPT-4o của OpenAI tạo ra hình ảnh gần như hoàn hảo từ văn bản, Google phát hành mô hình lý luận có thể là tiên tiến nhất từ trước đến nay trong Gemini 2.5 Pro và Runway tiết lộ một mô hình video có tính nhất quán giữa các nhân vật và cảnh quay, điều mà VentureBeat lưu ý là hầu hết các trình tạo video AI cho đến nay vẫn chưa làm được.
Những gì xảy ra tiếp theo thực sự là một phỏng đoán. Chúng ta không biết liệu AI mạnh mẽ sẽ là một bước đột phá hay sự cố, liệu nó sẽ giúp giải quyết năng lượng nhiệt hạch hay giải phóng những rủi ro sinh học mới. Nhưng với ngày càng nhiều FLOPS trực tuyến trong năm năm tới, một điều có vẻ chắc chắn: Sự đổi mới sẽ đến nhanh chóng — và mạnh mẽ. Rõ ràng là khi FLOPS mở rộng quy mô, các cuộc trò chuyện của chúng ta về trách nhiệm, quy định và sự kiềm chế cũng phải như vậy.