Hơn nữa, giọng nói của mô hình gpt-4o-mini-tts có thể được tùy chỉnh từ một số cài đặt trước thông qua lời nhắc văn bản để thay đổi giọng, cao độ, âm điệu và các phẩm chất giọng nói khác — bao gồm truyền tải bất kỳ cảm xúc nào mà người dùng yêu cầu, điều này sẽ giải quyết được mọi lo ngại rằng OpenAI đang cố tình bắt chước giọng nói của bất kỳ người dùng cụ thể nào ( trước đây công ty đã phủ nhận trường hợp của Johansson, nhưng dù sao thì cũng đã gỡ bỏ tùy chọn giọng nói bắt chước rõ ràng). Bây giờ, người dùng sẽ quyết định cách họ muốn giọng nói AI của mình phát ra khi nói lại.
Trong bản demo với VentureBeat được cung cấp qua cuộc gọi video, thành viên kỹ thuật của OpenAI là Jeff Harris đã trình diễn cách chỉ sử dụng văn bản trên trang web demo, người dùng có thể biến giọng nói đó thành giọng của một nhà khoa học điên khùng hay một giáo viên yoga điềm tĩnh, thiền định.
Khám phá và tinh chỉnh các khả năng mới trong cơ sở GPT-4o
Các mô hình này là các biến thể của mô hình GPT-4o hiện có mà OpenAI đã ra mắt vào tháng 5 năm 2024 và hiện đang hỗ trợ trải nghiệm giọng nói và văn bản ChatGPT cho nhiều người dùng, nhưng công ty đã lấy mô hình cơ sở đó và đào tạo sau với dữ liệu bổ sung để làm cho nó vượt trội về phiên âm và giọng nói. Công ty không chỉ định khi nào các mô hình có thể xuất hiện trên ChatGPT.
Harris cho biết: “ChatGPT có các yêu cầu hơi khác nhau về mặt chi phí và đánh đổi hiệu suất, vì vậy, mặc dù tôi hy vọng họ sẽ chuyển sang các mô hình này theo thời gian, nhưng hiện tại, lần ra mắt này tập trung vào người dùng API”.
Công cụ này được thiết kế để thay thế mô hình chuyển văn bản thành giọng nói nguồn mở Whisper hai năm tuổi của OpenAI, cung cấp tỷ lệ lỗi từ ngữ thấp hơn trên các tiêu chuẩn của ngành và cải thiện hiệu suất trong môi trường nhiều tiếng ồn, với nhiều giọng khác nhau và tốc độ nói khác nhau trên hơn 100 ngôn ngữ.
Công ty đã đăng một biểu đồ trên trang web của mình cho thấy tỷ lệ lỗi của mô hình gpt-4o-transcribe thấp hơn bao nhiêu khi nhận dạng từ trên 33 ngôn ngữ so với Whisper — với con số ấn tượng là 2,46% trong tiếng Anh.

Harris cho biết: “Các mô hình này bao gồm chức năng khử tiếng ồn và phát hiện hoạt động giọng nói ngữ nghĩa, giúp xác định thời điểm người nói kết thúc suy nghĩ, cải thiện độ chính xác của bản ghi chép”.
Harris nói với VentureBeat rằng họ mô hình gpt-4o-transcribe mới không được thiết kế để cung cấp “nhật ký”, hay khả năng gắn nhãn và phân biệt giữa những người nói khác nhau. Thay vào đó, nó được thiết kế chủ yếu để nhận một (hoặc có thể là nhiều giọng nói) dưới dạng một kênh đầu vào duy nhất và phản hồi tất cả các đầu vào bằng một giọng nói đầu ra duy nhất trong tương tác đó, bất kể mất bao lâu.
Công ty cũng đang tổ chức một cuộc thi cho công chúng để tìm ra những ví dụ sáng tạo nhất về việc sử dụng trang web giọng nói demo OpenAI.fm và chia sẻ chúng trực tuyến bằng cách gắn thẻ tài khoản @openAI trên X. Người chiến thắng sẽ nhận được một chiếc radio Teenage Engineering tùy chỉnh có logo OpenAI, mà Trưởng bộ phận sản phẩm, nền tảng của OpenAI Olivier Godement cho biết là một trong ba chiếc radio duy nhất trên thế giới.
Một mỏ vàng ứng dụng âm thanh
Những cải tiến này khiến chúng đặc biệt phù hợp với các ứng dụng như tổng đài chăm sóc khách hàng, ghi chép biên bản cuộc họp và trợ lý hỗ trợ AI.
Điều ấn tượng là Agents SDK mới ra mắt của công ty vào tuần trước cũng cho phép những nhà phát triển đã xây dựng ứng dụng trên các mô hình ngôn ngữ lớn dựa trên văn bản như GPT-4o thông thường thêm các tương tác bằng giọng nói mượt mà chỉ với khoảng “chín dòng mã”, theo lời một người thuyết trình trong buổi phát trực tiếp trên YouTube của OpenAI công bố các mô hình mới (được nhúng ở trên).
Ví dụ, một ứng dụng thương mại điện tử được xây dựng trên GPT-4o hiện có thể phản hồi các câu hỏi theo lượt của người dùng như “Hãy cho tôi biết về đơn hàng gần đây nhất của tôi” bằng giọng nói chỉ sau vài giây tinh chỉnh mã bằng cách thêm các mô hình mới này.
Harris cho biết: “Lần đầu tiên, chúng tôi giới thiệu tính năng truyền phát giọng nói thành văn bản, cho phép các nhà phát triển liên tục nhập âm thanh và nhận luồng văn bản theo thời gian thực, giúp các cuộc trò chuyện trở nên tự nhiên hơn”.
Tuy nhiên, đối với những nhà phát triển đang tìm kiếm trải nghiệm giọng nói AI thời gian thực, độ trễ thấp, OpenAI khuyên bạn nên sử dụng mô hình chuyển giọng nói thành giọng nói trong API thời gian thực.
Giá cả và tính khả dụng
Các mô hình mới có sẵn ngay lập tức thông qua API của OpenAI, với giá như sau:
• gpt-4o-transcribe: 6,00 đô la cho 1 triệu mã thông báo đầu vào âm thanh (~0,006 đô la cho mỗi phút)
• gpt-4o-mini-transcribe: 3,00 đô la cho 1 triệu mã thông báo đầu vào âm thanh (~0,003 đô la cho mỗi phút)
• gpt-4o-mini-tts: 0,60 đô la cho 1 triệu mã thông báo nhập văn bản, 12,00 đô la cho 1 triệu mã thông báo đầu ra âm thanh (~0,015 đô la cho mỗi phút)
Tuy nhiên, chúng xuất hiện vào thời điểm cạnh tranh khốc liệt hơn bao giờ hết trong không gian phiên âm và giọng nói AI, với các công ty AI giọng nói chuyên dụng như ElevenLabs cung cấp mô hình Scribe mới của họ, hỗ trợ ghi nhật ký và tự hào có tỷ lệ lỗi giảm tương tự (nhưng không thấp bằng) là 3,3% bằng tiếng Anh. Giá của nó là 0,40 đô la cho mỗi giờ âm thanh đầu vào (hoặc 0,006 đô la cho mỗi phút, tương đương).
Một công ty khởi nghiệp khác, Hume AI, cung cấp một mô hình mới, Octave TTS, với tùy chỉnh phát âm và ngữ điệu cảm xúc ở cấp độ câu và thậm chí ở cấp độ từ — hoàn toàn dựa trên hướng dẫn của người dùng, không phải bất kỳ giọng nói nào được thiết lập sẵn. Giá của Octave TTS không thể so sánh trực tiếp, nhưng có một gói miễn phí cung cấp 10 phút âm thanh và chi phí tăng từ đó
Trong khi đó, nhiều mô hình âm thanh và giọng nói tiên tiến hơn cũng sẽ xuất hiện trong cộng đồng nguồn mở, bao gồm một mô hình có tên là Orpheus 3B, có sẵn với giấy phép Apache 2.0 , nghĩa là các nhà phát triển không phải trả bất kỳ chi phí nào để chạy nó — miễn là họ có phần cứng hoặc máy chủ đám mây phù hợp.
Sự áp dụng của ngành và kết quả ban đầu
Theo lời chứng thực được OpenAI chia sẻ với VentureBeat, một số công ty đã tích hợp các mô hình âm thanh mới của OpenAI vào nền tảng của họ, báo cáo những cải tiến đáng kể về hiệu suất AI giọng nói.
EliseAI, một công ty tập trung vào tự động hóa quản lý bất động sản, nhận thấy rằng mô hình chuyển văn bản thành giọng nói của OpenAI cho phép tương tác tự nhiên hơn và giàu cảm xúc hơn với người thuê nhà.
Giọng nói được cải tiến giúp cho việc cho thuê, bảo trì và lên lịch tham quan bằng AI trở nên hấp dẫn hơn, mang lại sự hài lòng cao hơn cho người thuê và cải thiện tỷ lệ giải quyết cuộc gọi.
Decagon, công ty xây dựng trải nghiệm giọng nói hỗ trợ AI, đã chứng kiến độ chính xác của bản ghi được cải thiện 30% khi sử dụng mô hình nhận dạng giọng nói của OpenAI.
Sự gia tăng độ chính xác này đã cho phép các tác nhân AI của Decagon hoạt động đáng tin cậy hơn trong các tình huống thực tế, ngay cả trong môi trường ồn ào. Quá trình tích hợp diễn ra nhanh chóng, với việc Decagon tích hợp mô hình mới vào hệ thống của mình trong vòng một ngày.
Không phải mọi phản ứng với bản phát hành mới nhất của OpenAI đều nồng nhiệt. Đồng sáng lập phần mềm phân tích ứng dụng Dawn AI Ben Hylak (@benhylak) , cựu nhà thiết kế giao diện người dùng của Apple, đã đăng trên X rằng mặc dù các mô hình có vẻ hứa hẹn, nhưng thông báo này “giống như một sự rút lui khỏi giọng nói thời gian thực”, cho thấy sự thay đổi khỏi trọng tâm trước đây của OpenAI về AI đàm thoại độ trễ thấp thông qua ChatGPT.
Ngoài ra, việc ra mắt đã được báo trước bằng một rò rỉ sớm trên X (trước đây là Twitter). TestingCatalog News (@testingcatalog) đã đăng thông tin chi tiết về các mẫu máy mới vài phút trước thông báo chính thức, liệt kê tên của gpt-4o-mini-tts, gpt-4o-transcribe và gpt-4o-mini-transcribe. Thông tin rò rỉ được ghi nhận là của @StivenTheDev và bài đăng đã nhanh chóng thu hút được sự chú ý.
Tuy nhiên, nhìn về phía trước, OpenAI có kế hoạch tiếp tục tinh chỉnh các mô hình âm thanh và khám phá các khả năng giọng nói tùy chỉnh trong khi vẫn đảm bảo an toàn và sử dụng AI có trách nhiệm. Ngoài âm thanh, OpenAI cũng đang đầu tư vào AI đa phương thức, bao gồm cả video, để cho phép trải nghiệm dựa trên tác nhân năng động và tương tác hơn.