AI giọng nói thực sự chuyển đổi: Mô hình TTS mới thúc đẩy doanh số 15% cho các thương hiệu lớn

Cuối cùng, mọi người muốn nghe giọng nói giống mình hoặc ít nhất là giọng nói tự nhiên, không chỉ là giọng nói tiêu chuẩn của Mỹ vào thế kỷ 20.

Công ty khởi nghiệp Rime đang giải quyết thách thức này bằng công nghệ chuyển văn bản thành giọng nói (TTS) của Arcana, một mô hình ngôn ngữ nói mới có thể nhanh chóng tạo ra “vô hạn” giọng nói mới thuộc nhiều giới tính, độ tuổi, nhân khẩu học và ngôn ngữ khác nhau chỉ dựa trên mô tả văn bản đơn giản về các đặc điểm mong muốn.

Mô hình này đã giúp tăng doanh số bán hàng cho khách hàng — đối với những công ty như Domino’s và Wingstop — lên 15%.

Lily Clifford, CEO kiêm đồng sáng lập của Rime, chia sẻ với VentureBeat rằng: “Một chuyện là có một mô hình thực sự chất lượng cao, giống người thật, có giọng nói giống người thật”. “Một chuyện khác là có một mô hình không chỉ có thể tạo ra một giọng nói mà là vô số giọng nói khác nhau theo từng nhóm nhân khẩu học”.

Một mô hình giọng nói ‘hoạt động như con người’

Mô hình TTS đa phương thức và tự hồi quy của Rime được đào tạo trên các cuộc trò chuyện tự nhiên với người thật (khác với diễn viên lồng tiếng). Người dùng chỉ cần nhập mô tả lời nhắc văn bản về giọng nói có đặc điểm nhân khẩu học và ngôn ngữ mong muốn.

Ví dụ: ‘Tôi muốn tìm một phụ nữ 30 tuổi sống ở California và làm việc trong lĩnh vực phần mềm’ hoặc ‘Cho tôi giọng nói của một người đàn ông Úc’.

Clifford cho biết: “Mỗi lần bạn làm như vậy, bạn sẽ có được một giọng nói khác”.

Mô hình Mist v2 TTS của Rime được xây dựng cho các ứng dụng quan trọng đối với doanh nghiệp, khối lượng lớn, cho phép các doanh nghiệp tạo ra giọng nói độc đáo cho nhu cầu kinh doanh của họ. Clifford cho biết: “Khách hàng nghe thấy giọng nói cho phép trò chuyện tự nhiên, năng động mà không cần đến tác nhân con người”.

Trong khi đó, đối với những ai đang tìm kiếm các lựa chọn đột phá, Rime cung cấp tám mẫu loa hàng đầu với những đặc điểm độc đáo:

Luna (nữ, điềm tĩnh nhưng dễ bị kích động, thế hệ Z lạc quan)
Celeste (nữ, ấm áp, thoải mái, yêu thích vui vẻ)
Orion (nam, lớn tuổi, người Mỹ gốc Phi, vui vẻ)
Ursa (nam, 20 tuổi, hiểu biết sâu rộng về nhạc emo thập niên 2000)
Astra (nữ, trẻ, mắt mở to)
Esther (nữ, lớn tuổi, người Mỹ gốc Hoa, yêu thương)
Estelle (nữ, trung niên, người Mỹ gốc Phi, nghe thật ngọt ngào)
Andromeda (nữ, trẻ trung, nhẹ nhàng, rung cảm yoga)

Mô hình có khả năng chuyển đổi giữa các ngôn ngữ và có thể thì thầm, mỉa mai và thậm chí là chế giễu. Arcana cũng có thể chèn tiếng cười vào lời nói khi được đưa cho mã thông báo <laugh>. Điều này có thể trả về các đầu ra đa dạng, thực tế, từ “một tiếng cười khúc khích nhỏ đến một tiếng cười lớn”, Rime nói. Mô hình cũng có thể diễn giải <chuckle>, <sigh> và thậm chí <hum> một cách chính xác, mặc dù nó không được đào tạo rõ ràng để làm như vậy.

“Nó suy ra cảm xúc từ ngữ cảnh,” Rime viết trong một bài báo kỹ thuật. “Nó cười, thở dài, ngâm nga, thở ra thành tiếng và phát ra những âm thanh nhỏ từ miệng. Nó nói ‘um’ và những tiếng nói không lưu loát khác một cách tự nhiên. Nó có những hành vi mới nổi mà chúng ta vẫn đang khám phá. Tóm lại, nó hành động như con người.”

Ghi lại các cuộc trò chuyện tự nhiên

Mô hình của Rime tạo ra các mã thông báo âm thanh được giải mã thành giọng nói bằng cách sử dụng phương pháp dựa trên codec, mà Rime cho biết là cung cấp “tổng hợp nhanh hơn thời gian thực”. Khi ra mắt, thời gian cho âm thanh đầu tiên là 250 mili giây và độ trễ của đám mây công cộng là khoảng 400 mili giây.

Arcana được đào tạo qua ba giai đoạn:

Đào tạo trước: Rime sử dụng các mô hình ngôn ngữ lớn (LLM) nguồn mở làm xương sống và đào tạo trước trên một nhóm lớn các cặp văn bản-âm thanh để giúp Arcana học các mẫu ngôn ngữ và âm thanh chung.
Giám sát tinh chỉnh với bộ dữ liệu độc quyền “khổng lồ”.
Tinh chỉnh theo từng diễn giả: Rime đã xác định những diễn giả mà họ thấy “mẫu mực nhất” trong tập dữ liệu, cuộc hội thoại và độ tin cậy của mình.

Dữ liệu của Rime kết hợp các kỹ thuật hội thoại ngôn ngữ xã hội (tính đến bối cảnh xã hội như giai cấp, giới tính, địa điểm), phương ngữ (thói quen nói của cá nhân) và sắc thái ngôn ngữ phụ (các khía cạnh giao tiếp phi ngôn ngữ đi kèm với lời nói).

Mô hình này cũng được đào tạo về các nét nhấn mạnh, các từ đệm (những từ ‘ờ’ và ‘ừm’ vô thức) cũng như các khoảng dừng, các kiểu nhấn âm điệu (ngữ điệu, nhịp độ, nhấn mạnh vào một số âm tiết nhất định) và chuyển đổi mã đa ngôn ngữ (khi người nói nhiều ngôn ngữ chuyển đổi qua lại giữa các ngôn ngữ).

Công ty đã áp dụng một cách tiếp cận độc đáo để thu thập tất cả dữ liệu này . Clifford giải thích rằng, thông thường, những người xây dựng mô hình sẽ thu thập các đoạn trích từ diễn viên lồng tiếng, sau đó tạo ra một mô hình để tái tạo các đặc điểm giọng nói của người đó dựa trên dữ liệu nhập văn bản. Hoặc, họ sẽ thu thập dữ liệu sách nói.

“Cách tiếp cận của chúng tôi rất khác biệt”, cô giải thích. “Đó là, ‘Làm thế nào để chúng ta tạo ra bộ dữ liệu độc quyền lớn nhất thế giới về lời nói đàm thoại?’”

Để làm được như vậy, Rime đã xây dựng phòng thu âm riêng của mình trong một tầng hầm ở San Francisco và dành nhiều tháng để tuyển dụng mọi người từ Craigslist, thông qua truyền miệng hoặc chỉ đơn giản là tập hợp bản thân và bạn bè, gia đình. Thay vì các cuộc trò chuyện theo kịch bản, họ đã ghi lại các cuộc trò chuyện và tán gẫu một cách tự nhiên.

Sau đó, họ chú thích giọng nói bằng siêu dữ liệu chi tiết, mã hóa giới tính, độ tuổi, phương ngữ, ảnh hưởng giọng nói và ngôn ngữ. Điều này cho phép Rime đạt được độ chính xác từ 98 đến 100%.

AI giọng nói thực sự chuyển đổi: Mô hình TTS mới thúc đẩy doanh số 15% cho các thương hiệu lớn

Một mô hình giọng nói ‘hoạt động như con người’

Ghi lại các cuộc trò chuyện tự nhiên

BÌNH LUẬN Hủy trả lời

Chủ đề

Bài viết liên quan

Menu

Tin nổi bật

Liên hệ với chúng tôi