注意到在語音識別領域出現了有趣的動向。Sierra 公開了 μ-Bench —— 一個多語言的 ASR 系統評估數據集,這看起來是一個相當重要的步伐。



重點在於:該數據集包含 250 個來自客戶服務的實際錄音,以及 4270 個已標註的音頻片段。與現有的基準相比,最大的不同在於不僅僅支持英語。它支持五種語言 —— 英語、西班牙語、土耳其語、越南語和普通話。

特別有趣的是新的評估指標 UER (Utterance Error Rate)。它能區分改變語意的錯誤與不影響語意的錯誤。這比傳統的 WER 指標要細膩得多,因為在 WER 中所有錯誤都被一視同仁。

根據測試結果:Google Chirp-3 在準確率方面領先,Deepgram Nova-3 速度最快,但在多語言方面略遜一籌。令人期待未來的發展。

數據集和結果表已在 Hugging Face 上公開,其他開發者也可以加入評估行列。看來 μ-Bench 正在成為客戶服務環境中嚴肅評估 ASR 的新標準。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆