Щойно я відкрив для себе щось цікаве у світі розпізнавання голосу. Sierra щойно зробила відкритим вихідним кодом μ-Bench, багатомовний бенчмарк для автоматичного розпізнавання мови, який вирішує справжню проблему: більшість існуючих бенчмарків зосереджені на англійській мові, що серйозно обмежує оцінку систем у реальних клієнтських умовах.



Що особливо важливо з μ-Bench, так це те, що він пропонує більш нюансований підхід, ніж старі методи. Замість традиційної метрики Word Error Rate (WER) вони ввели показник Utterance Error Rate (UER), який розрізняє помилки, що дійсно змінюють сенс повідомлення, і ті, що не впливають на розуміння. Це значний крок уперед у оцінці реальної якості.

Набір даних включає 250 автентичних записів обслуговування клієнтів і 4 270 аудіо-відрізків з анотаціями, що охоплюють п’ять мов: англійську, іспанську, турецьку, в’єтнамську та мандарин. Це вже набагато більш репрезентативно, ніж раніше.

Що стосується продуктивності, Google Chirp-3 явно лідирує за точністю, тоді як Deepgram Nova-3 вирізняється швидкістю, але залишається позаду у багатомовній точності. Цікаво побачити, як різні постачальники позиціонуються за цими критеріями.

Повний бенчмарк і рейтинги вже доступні на Hugging Face, що відкриває можливості для більшої участі постачальників. Це такий відкритий ініціативний проект, який справді стимулює галузь рухатися вперед, особливо коли мова йде про покращення розпізнавання голосу для реальних багатомовних сценаріїв.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити