Заметив цікаву тенденцію у сфері розпізнавання мови. Sierra опублікувала у відкритому доступі μ-Bench — багатомовний датасет для оцінки систем ASR, і це виглядає досить серйозним кроком.



У чому суть: набір включає 250 реальних записів із служби підтримки клієнтів і 4270 аннотованих аудіокліпів. Головна відмінність від існуючих бенчмарків у тому, що тут не тільки англійська мова. Підтримують п’ять мов — англійську, іспанську, турецьку, в’єтнамську та мандарин.

Особливо цікава нова метрика UER (Utterance Error Rate). Вона розрізняє помилки, які змінюють сенс висловлювання, від тих, що не порушують зміст. Це набагато тонше, ніж класична метрика WER, де всі помилки вважаються однаковими.

За результатами тестування: Google Chirp-3 лідирує за точністю, Deepgram Nova-3 швидше за всіх, але у багатомовності відстає. Цікаво, як це буде розвиватися далі.

Датасет і таблиця результатів вже доступні на Hugging Face, тож інші розробники можуть приєднатися до оцінки. Здається, μ-Bench стає новим стандартом для серйозної оцінки ASR у середовищі обслуговування клієнтів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити