Що особливо важливо з μ-Bench, так це те, що він пропонує більш нюансований підхід, ніж старі методи. Замість традиційної метрики Word Error Rate (WER) вони ввели показник Utterance Error Rate (UER), який розрізняє помилки, що дійсно змінюють сенс повідомлення, і ті, що не впливають на розуміння. Це значний крок уперед у оцінці реальної якості.

Набір даних включає 250 автентичних записів обслуговування клієнтів і 4 270 аудіо-відрізків з анотаціями, що охоплюють п’ять мов: англійську, іспанську, турецьку, в’єтнамську та мандарин. Це вже набагато більш репрезентативно, ніж раніше.

Що стосується продуктивності, Google Chirp-3 явно лідирує за точністю, тоді як Deepgram Nova-3 вирізняється швидкістю, але залишається позаду у багатомовній точності. Цікаво побачити, як різні постачальники позиціонуються за цими критеріями.

Повний бенчмарк і рейтинги вже доступні на Hugging Face, що відкриває можливості для більшої участі постачальників. Це такий відкритий ініціативний проект, який справді стимулює галузь рухатися вперед, особливо коли мова йде про покращення розпізнавання голосу для реальних багатомовних сценаріїв.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryLive
1.15M Популярність
#
WCTCTradingChallengeShare8MUSDT
777.61K Популярність
#
BitcoinBouncesBack
199.05K Популярність
#
IsraelStrikesIranBTCPlunges
30.62K Популярність
#
USIranTalksProgress
784.91K Популярність

Закріпити

карта сайту

Популярні теми

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Закріпити