Nhưng Nvidia còn làm nhiều hơn thế nữa, tất nhiên là chỉ sản xuất phần cứng và phần mềm để chạy chúng. Khi kỷ nguyên AI tạo sinh tiếp tục, công ty có trụ sở tại Santa Clara này cũng liên tục phát hành ngày càng nhiều mô hình AI của riêng mình — chủ yếu là mã nguồn mở và miễn phí cho các nhà nghiên cứu và nhà phát triển để lấy, tải xuống, sửa đổi và sử dụng cho mục đích thương mại — và mới nhất trong số đó là Parakeet-TDT-0.6B-v2 , một mô hình nhận dạng giọng nói tự động (ASR) có thể, theo lời của Vaibhav “VB” Srivastav của Hugging Face, “phiên âm 60 phút âm thanh trong 1 giây [biểu tượng cảm xúc gây sốc].”
Đây là thế hệ mới của mẫu Parakeet được Nvidia lần đầu công bố vào tháng 1 năm 2024 và được cập nhật lại vào tháng 4 năm đó , nhưng phiên bản thứ hai này mạnh mẽ đến mức hiện đang đứng đầu Bảng xếp hạng Hugging Face Open ASR với “Tỷ lệ lỗi từ” trung bình (lần mô hình phiên âm không chính xác một từ được nói) chỉ là 6,05% (trên 100).
Để hiểu rõ hơn, nó gần giống với các mô hình phiên âm độc quyền như GPT-4o-transcribe của OpenAI (với WER là 2,46% bằng tiếng Anh) và ElevenLabs Scribe (3,3%).
Và nó cung cấp tất cả những điều này trong khi vẫn được cung cấp miễn phí theo giấy phép Creative Commons CC-BY-4.0 cho phép thương mại , khiến nó trở thành một đề xuất hấp dẫn cho các doanh nghiệp thương mại và nhà phát triển độc lập muốn tích hợp dịch vụ nhận dạng giọng nói và phiên âm vào các ứng dụng trả phí của họ.
Hiệu suất và vị thế chuẩn mực
Mô hình này tự hào có 600 triệu tham số và tận dụng sự kết hợp giữa kiến trúc mã hóa FastConformer và kiến trúc giải mã TDT.
Nó có khả năng sao chép một giờ âm thanh chỉ trong một giây, với điều kiện nó chạy trên phần cứng tăng tốc GPU của Nvidia.
Tiêu chuẩn hiệu suất được đo ở RTFx (Hệ số thời gian thực) là 3386,02 với quy mô lô là 128, đưa tiêu chuẩn này lên vị trí cao nhất trong các tiêu chuẩn ASR hiện tại do Hugging Face duy trì.
Các trường hợp sử dụng và tính khả dụng
Được phát hành trên toàn cầu vào ngày 1 tháng 5 năm 2025, Parakeet-TDT-0.6B-v2 nhắm đến các nhà phát triển, nhà nghiên cứu và nhóm công nghiệp xây dựng các ứng dụng như dịch vụ phiên âm, trợ lý giọng nói, trình tạo phụ đề và nền tảng AI đàm thoại.
Mô hình này hỗ trợ dấu câu, chữ hoa và dấu thời gian chi tiết đến từng từ, cung cấp gói phiên âm đầy đủ cho nhiều nhu cầu chuyển giọng nói thành văn bản.
Truy cập và triển khai
Các nhà phát triển có thể triển khai mô hình bằng bộ công cụ NeMo của Nvidia. Quy trình thiết lập tương thích với Python và PyTorch, và mô hình có thể được sử dụng trực tiếp hoặc tinh chỉnh cho các tác vụ cụ thể của miền.
Giấy phép nguồn mở (CC-BY-4.0) cũng cho phép sử dụng cho mục đích thương mại, hấp dẫn cả các công ty khởi nghiệp và doanh nghiệp.
Dữ liệu đào tạo và phát triển mô hình
Parakeet-TDT-0.6B-v2 được đào tạo trên một kho dữ liệu đa dạng và quy mô lớn được gọi là tập dữ liệu Granary. Kho dữ liệu này bao gồm khoảng 120.000 giờ âm thanh tiếng Anh, bao gồm 10.000 giờ dữ liệu được phiên âm chất lượng cao của con người và 110.000 giờ giọng nói được gắn nhãn giả.
Các nguồn bao gồm từ các tập dữ liệu nổi tiếng như LibriSpeech và Mozilla Common Voice đến YouTube-Commons và Librilight.
Nvidia có kế hoạch công khai bộ dữ liệu Granary sau bài thuyết trình tại Interspeech 2025.
Đánh giá và độ bền vững
Mô hình được đánh giá qua nhiều chuẩn ASR tiếng Anh, bao gồm AMI, Earnings22, GigaSpeech và SPGISpeech, và cho thấy hiệu suất tổng quát hóa mạnh mẽ. Nó vẫn mạnh mẽ trong các điều kiện tiếng ồn khác nhau và hoạt động tốt ngay cả với các định dạng âm thanh kiểu điện thoại, với sự suy giảm chỉ khiêm tốn ở tỷ lệ tín hiệu trên tiếng ồn thấp hơn.
Khả năng tương thích và hiệu quả của phần cứng
Parakeet-TDT-0.6B-v2 được tối ưu hóa cho môi trường GPU Nvidia, hỗ trợ phần cứng như bo mạch A100, H100, T4 và V100.
Trong khi GPU cao cấp tối đa hóa hiệu suất, mô hình này vẫn có thể được tải trên các hệ thống chỉ có 2GB RAM, cho phép triển khai ở phạm vi rộng hơn.
Những cân nhắc về mặt đạo đức và sử dụng có trách nhiệm
NVIDIA lưu ý rằng mô hình này được phát triển mà không sử dụng dữ liệu cá nhân và tuân thủ theo khuôn khổ AI có trách nhiệm của mình.
Mặc dù không có biện pháp cụ thể nào được thực hiện để giảm thiểu sự thiên vị về nhân khẩu học, mô hình đã đạt các tiêu chuẩn chất lượng nội bộ và bao gồm tài liệu chi tiết về quy trình đào tạo, nguồn gốc tập dữ liệu và việc tuân thủ quyền riêng tư.
Bản phát hành đã thu hút sự chú ý từ cộng đồng máy học và nguồn mở, đặc biệt là sau khi được công khai nêu bật trên phương tiện truyền thông xã hội. Các nhà bình luận lưu ý khả năng vượt trội hơn các giải pháp thay thế ASR thương mại của mô hình trong khi vẫn hoàn toàn là nguồn mở và có thể sử dụng thương mại.
Các nhà phát triển quan tâm đến việc thử nghiệm mô hình có thể truy cập thông qua Hugging Face hoặc thông qua bộ công cụ NeMo của Nvidia. Hướng dẫn cài đặt, tập lệnh demo và hướng dẫn tích hợp luôn sẵn có để tạo điều kiện cho việc thử nghiệm và triển khai.