Groq và PlayAI hôm nay đã công bố quan hệ hợp tác để đưa Dialog , một mô hình chuyển văn bản thành giọng nói tiên tiến, ra thị trường thông qua nền tảng suy luận tốc độ cao của Groq.
“Groq cung cấp một hệ thống hoàn chỉnh, độ trễ thấp cho nhận dạng giọng nói tự động (ASR), GenAI và chuyển văn bản thành giọng nói, tất cả ở một nơi”, Ian Andrews, Giám đốc doanh thu tại Groq, cho biết trong một cuộc phỏng vấn độc quyền với VentureBeat. “Với Dialog hiện đang chạy trên
GroqCloud , điều này có nghĩa là khách hàng sẽ không phải sử dụng nhiều nhà cung cấp cho một trường hợp sử dụng duy nhất — Groq là giải pháp một cửa”.
Groq cung cấp AI giọng nói tiếng Ả Rập đầu tiên, mở rộng sự hiện diện của công nghệ Trung Đông
Dialog đáng chú ý vì có sẵn bằng cả tiếng Anh và tiếng Ả Rập, với phiên bản tiếng Ả Rập đại diện cho AI giọng nói đầu tiên được thiết kế riêng cho khu vực Trung Đông. Việc đưa tiếng Ả Rập vào như một trong những dịch vụ ban đầu là chiến lược cho cả hai công ty.
Andrews chia sẻ với VentureBeat rằng: “Tiếng Ả Rập là ngôn ngữ được nói nhiều thứ tư trên toàn cầu — bằng cách hợp tác với PlayAI để cung cấp mô hình TTS tiếng Ả Rập, Groq đang mở ra một thị trường toàn cầu quan trọng và cho phép tiếp cận rộng rãi hơn với suy luận AI nhanh”.
Các công ty khẳng định giải pháp của họ giải quyết được những thiếu sót chính trong các công nghệ AI giọng nói hiện có, đặc biệt là xung quanh các mẫu giọng nói tự nhiên và tốc độ phản hồi. Theo thử nghiệm chuẩn do bên thứ ba đánh giá Podonos thực hiện , Dialog được người dùng ưa chuộng với tỷ lệ 10:1 so với ElevenLabs v2.5 Turbo và hơn 3:1 so với ElevenLabs Multilingual v2.0 .
‘Công cụ ngữ cảnh hóa giọng nói thích ứng’ cải tiến chuyển đổi AI đàm thoại
Điểm khác biệt của Dialog là cách tiếp cận tinh vi với ngữ cảnh. Thay vì coi mỗi giọng nói là một sự kiện riêng biệt, hệ thống duy trì nhận thức về toàn bộ luồng hội thoại.
“Chúng tôi đã xây dựng một kiến trúc mới mà chúng tôi gọi là ‘ bộ ngữ cảnh hóa giọng nói thích ứng ‘ (ASC), cho phép mô hình sử dụng toàn bộ ngữ cảnh và lịch sử của một cuộc trò chuyện”, Mahmoud Felfel, đồng sáng lập kiêm giám đốc điều hành của PlayAI, cho biết trong một cuộc phỏng vấn với VentureBeat. “Điều này có nghĩa là mọi phản hồi không chỉ là một đầu ra độc lập; nó được làm giàu với ngữ điệu, giọng điệu và cảm xúc phù hợp phản ánh dòng chảy của cuộc trò chuyện”.
Đối với các doanh nghiệp muốn triển khai AI đàm thoại, độ trễ — sự chậm trễ giữa yêu cầu và phản hồi — là một thách thức dai dẳng. Các Đơn vị xử lý ngôn ngữ (LPU) chuyên dụng của Groq dường như mang lại lợi thế đáng kể trong lĩnh vực này.
“Dựa trên thử nghiệm nội bộ ban đầu, Groq đang cung cấp tới 140 ký tự mỗi giây trên mô hình Dialog của PlayAI , một sự gia tăng đáng kể so với cùng một mô hình chạy trên GPU với 86 ký tự mỗi giây”, Andrews giải thích. “Điều đó có nghĩa là Dialog tạo ra văn bản nhanh hơn tới 10 lần so với thời gian thực”.
Groq đảm bảo khoản đầu tư 1,5 tỷ đô la từ Saudi để xây dựng cơ sở hạ tầng AI đẳng cấp thế giới
Quan hệ đối tác này diễn ra vào thời điểm Groq mở rộng đáng kể, gần đây đã đảm bảo được cam kết 1,5 tỷ đô la từ Saudi Arabia để tài trợ cho cơ sở hạ tầng bổ sung. Công ty đã thành lập một trung tâm dữ liệu tại Dammam, được mô tả là “cụm suy luận lớn nhất trong khu vực”.
Felfel cho biết: “Hợp tác với Groq là điều hiển nhiên; họ là công ty hàng đầu trong ngành về cơ sở hạ tầng suy luận AI tiên tiến. Với TTS và các tác nhân, độ trễ thấp là chìa khóa. Chúng tôi đã tối ưu hóa Dialog cho các ứng dụng thời gian thực này, nhưng hợp tác với Groq cho phép chúng tôi cung cấp mô hình giọng nói có độ trễ thấp nhất trên thị trường”.
Thị trường AI giọng nói đã chứng kiến sự tăng trưởng nhanh chóng khi các doanh nghiệp tìm cách tự động hóa tương tác với khách hàng trong khi vẫn duy trì trải nghiệm tự nhiên, giống con người. Các ứng dụng bao gồm từ dịch vụ khách hàng và tự động hóa bán hàng đến giọng nói và các tính năng trợ năng cho người khiếm thị.
Các ứng dụng doanh nghiệp mở rộng ra ngoài các trường hợp sử dụng dịch vụ khách hàng truyền thống
Andrews cho biết: “Ngoài dịch vụ khách hàng, các trường hợp sử dụng doanh nghiệp khác bao gồm tự động hóa bán hàng và lên lịch hẹn, trợ lý cá nhân và tiếp nhận, tạo giọng nói cho nội dung hiện có, dịch nội dung âm thanh và video tiếng Anh sang tiếng Ả Rập, tăng khả năng truy cập trang web và nội dung tĩnh cho người khiếm thị, v.v.”.
Đối với PlayAI, công ty được thành lập bởi các doanh nhân đến từ khu vực Trung Đông và Bắc Phi, việc tích hợp khả năng sử dụng ngôn ngữ tiếng Ả Rập có ý nghĩa đặc biệt.
Felfel cho biết: “Là những người sáng lập MENA, chúng tôi biết khu vực này đang đầu tư mạnh vào năng lực và cơ sở hạ tầng AI như được thể hiện trong các khoản đầu tư như Groq, nhưng cũng là nơi áp dụng hàng đầu thế giới”. “Tiếng Ả Rập là ngôn ngữ kinh doanh toàn cầu và là ngôn ngữ mà chúng tôi lớn lên cùng, vì vậy, đó là sự lựa chọn tự nhiên như một trong những ngôn ngữ cốt lõi của chúng tôi”.
Các công ty đã cung cấp công nghệ Dialog thông qua mô hình dịch vụ theo tầng của GroqCloud , bao gồm cả tùy chọn miễn phí và trả phí. Cách tiếp cận này cho phép các nhà phát triển thử nghiệm công nghệ trước khi cam kết triển khai rộng hơn.
“GroqCloud cung cấp cả gói miễn phí và trả phí. Bất kỳ ai cũng có thể tạo tài khoản và tạo mã API miễn phí”, Andrews giải thích. “Cấp độ nhà phát triển trả phí của chúng tôi là tự phục vụ, nghĩa là bất kỳ ai có thẻ tín dụng đều có thể tự đăng ký”.
Khi giọng nói trở thành giao diện ngày càng quan trọng đối với các hệ thống AI, quan hệ đối tác này định vị cả hai công ty để tận dụng nhu cầu ngày càng tăng đối với các trải nghiệm đàm thoại tự nhiên và phản hồi hơn. Bằng cách giải quyết các thách thức kỹ thuật về độ trễ và các mẫu giọng nói tự nhiên, Groq và PlayAI có thể đã xóa bỏ các rào cản đáng kể đối với việc áp dụng rộng rãi AI giọng nói trong các thiết lập doanh nghiệp.