Percebi um movimento interessante na área de reconhecimento de fala. A Sierra disponibilizou publicamente o μ-Bench — um conjunto de dados multilíngue para avaliação de sistemas ASR, e isso parece um passo bastante sério.



A essência: o conjunto inclui 250 gravações reais de atendimento ao cliente e 4270 clipes de áudio anotados. A principal diferença em relação aos benchmarks existentes é que aqui não há apenas o idioma inglês. São suportados cinco idiomas — inglês, espanhol, turco, vietnamita e mandarim.

Especialmente interessante é a nova métrica UER (Taxa de Erro em Enunciados). Ela diferencia erros que alteram o significado da fala daqueles que não prejudicam o sentido. Isso é muito mais sutil do que a métrica clássica WER, onde todos os erros são considerados iguais.

De acordo com os resultados dos testes: o Google Chirp-3 lidera em precisão, o Deepgram Nova-3 é o mais rápido, mas fica atrás na multilinguagem. É interessante ver como isso evoluirá no futuro.

O conjunto de dados e a tabela de resultados já estão disponíveis no Hugging Face, para que outros desenvolvedores possam participar da avaliação. Parece que o μ-Bench está se tornando o novo padrão para avaliações sérias de ASR em ambientes de atendimento ao cliente.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar