Qwen 開源先進的語音識別(ASR)和強制對齊模型,具備多語言能力

robot
摘要生成中

簡要介紹

阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型,實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。

Qwen Open-Sources Advanced ASR And Forced Alignment Models With Multi-Language Capabilities

阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,提供先進的語音識別與強制對齊工具。

Qwen3-ASR 系列包括兩款全能模型,Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,支持52種語言和口音的語言識別與轉錄,利用大規模語音數據和 Qwen3-Omni 基礎模型。

內部測試顯示,1.7B 模型在開源語音識別系統中達到最先進的準確率,而 0.6B 版本則在性能與效率之間取得平衡,能在一秒內轉錄2000秒的語音,並具有高併發能力。

Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型(LLM)方法,在11種語言中進行文本與語音的對齊,速度與準確率均優於領先的強制對齊解決方案。

阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架,支持串流、批次處理、時間戳預測和微調,旨在加速音頻理解的研究與實踐應用。

Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率

阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果,展現多樣語音識別任務中的領先準確率與效率。

Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果,在英語、多語言和中文方言識別方面超越商業API和其他開源模型,包括粵語和22個地區變體。

在低信噪比、兒童或老年人語音,甚至歌聲轉錄等挑戰性聲學條件下,仍能保持可靠的準確率,中文平均字錯誤率為13.91%,英文為14.60%,背景有音樂。

較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡,在高併發下提供高吞吐量和低延遲,能在128併發的線上非同步模式下轉錄長達五小時的語音。

同時,Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面,超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)