Rebeca Moen
NVIDIA erweitert seine Riva ASR mit neuen mehrsprachigen Fähigkeiten unter Verwendung von Whisper- und Canary-Modellen und integriert fortschrittliche Funktionen für die Offline- und automatische Sprachübersetzung.
NVIDIA hat bedeutende Fortschritte bei der Weiterentwicklung seiner automatischen Spracherkennung (ASR)-Systeme durch die Einführung erweiterter Funktionen über den Riva 2.18.0-Container und das SDK erzielt. Diese Entwicklungen sind Teil der laufenden Bemühungen von NVIDIA, seine auf GPU-Beschleunigung basierenden Sprach- und Übersetzungs-KI-Microservices zu verfeinern, wie von Sven Chilton im NVIDIA Developer Blog detailliert beschrieben.
Die neueste Version von Riva enthält Unterstützung für die Parakeet-Architektur, die das Streaming von mehrsprachiger ASR ermöglicht, sowie die Whisper- und Canary-Modelle für die Offline-ASR und die automatische Sprachübersetzung (AST). Whisper, entwickelt von OpenAI, und die Distil-Whisper-Modelle von HuggingFace sind nun integraler Bestandteil der Offline-ASR-Fähigkeiten von Riva und ermöglichen die Transkription und Übersetzung von Tonaufnahmen in zahlreichen Sprachen direkt ins Englische.
Canary-Modelle erweitern die Funktionalität von Riva weiter, indem sie die Offline-ASR und AST in mehreren Sprachkombinationen unterstützen, einschließlich beliebiger-zu-Englisch, Englisch-zu-beliebig und beliebig-zu-beliebig Übersetzungen. Diese Modelle decken vielfältige sprachliche Anforderungen ab und bieten robuste Unterstützung für Spracherkennungs- und Übersetzungsaufgaben.
Eine der bemerkenswerten Funktionen, die in diesem Update eingeführt wurden, ist die Möglichkeit, Teile des neuronalen Maschinenübersetzungsprozesses mithilfe des SSML-Tags selektiv zu deaktivieren. Diese Funktion ermöglicht es den Benutzern, Textsegmente festzulegen, die nicht übersetzt werden sollen, und bietet eine größere Kontrolle über die Übersetzungsergebnisse. Darüber hinaus ermöglicht ein neues DNT-Wörterbuch die Spezifikation, wie bestimmte Wörter oder Phrasen übersetzt werden sollen, was die Anpassung der Übersetzungsprozesse verbessert.
Die Bereitstellung dieser neuen Funktionen wird durch den Riva Skills Quick Start-Ressourcenordner optimiert, der Skripte und Konfigurationsdateien enthält, die für die Einrichtung eines Riva-Servers mit Whisper- und Canary-Funktionen erforderlich sind. Benutzer können je nach ihren spezifischen ASR-Anforderungen zwischen Whisper- und Canary-Modellen wählen und die bereitgestellten Skripte verwenden, um die Modellbereitstellung entsprechend ihrer GPU-Architektur zu optimieren.
NVIDIAs Engagement für die Erweiterung des sprachlichen und funktionalen Umfangs seiner ASR-Systeme zeigt sich in der Integration dieser fortschrittlichen Modelle und Funktionen. Durch die Unterstützung eines breiteren Spektrums von Sprachen und die Bereitstellung verbesserter Übersetzungssteuerungen setzt Riva weiterhin Maßstäbe in der Spracherkennungs- und Übersetzungstechnologie.
Für weitere Informationen zu den neuesten ASR-Fortschritten von NVIDIA besuchen Sie den NVIDIA Developer Blog.
Bildquelle: Shutterstock