幣界網消息,階躍星辰發布新一代自動語音識別模型StepAudio 2.5 ASR,目前已全量上線其開放平台。該版本率先將大語言模型的多token預測(MTP)技術引入語音識別領域,在大幅提升推理速度的同時,復用大模型32K上下文窗口,打破了傳統長音頻轉寫需要切片拼接的限制。新模型通過直接復用32K上下文窗口,支持端到端單次讀入最長30分鐘完整音頻。在30分鐘滿載輸入測試中,模型未出現隨時間推移精度衰減的情況,其在Librispeech等中英文10個權威開源測試集上的綜合錯誤率均低於競品。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆