Google DeepMind, lançou 'Gemini 3.1 Flash TTS'… pode ajustar o tom e a velocidade da fala por texto

robot
Geração do resumo em andamento

O grupo de inteligência artificial do Google, DeepMind, divulgou um novo modelo de síntese de voz chamado “Gemini 3.1 Flash TTS”. Seu núcleo está em não apenas falar de forma mais natural do que as vozes mecânicas existentes, mas também permitir que os usuários ajustem detalhadamente o tom, velocidade e atmosfera apenas com comandos de texto.

Controle de tom, entonação e velocidade por comandos de texto

Recentemente, a responsabilidade limitada do Google anunciou em seu blog o lançamento do Gemini 3.1 Flash TTS. O modelo consegue refletir palavras-chave de comando como “entusiasmado”, “surpreso” e “transmissão de informações” ao converter respostas de chatbots em voz, alterando o tom e a timbre.

De acordo com um vídeo de demonstração divulgado, os usuários podem não apenas escolher a voz, mas também ajustar a forma de transmissão e a atmosfera da fala. Se a geração anterior de TTS parecia um pouco “robótica”, esta nova geração foca em alcançar uma expressão mais próxima da humana.

Suporte a sotaques regionais do inglês e formato de podcast

O Gemini 3.1 Flash TTS também oferece sotaques regionais em várias línguas principais. No caso do inglês, é possível escolher entre sotaques americanos “Valley” e “Southern”, além de variantes britânicas como “Brixton” e “RP”. Também inclui opções especiais como sotaques “transatlântico”.

O Google adicionou ao modelo uma funcionalidade de “controle de nível diretor”. Os usuários podem ajustar com mais precisão o estilo de fala e a velocidade, além de usar modelos de diálogo de podcast, narração de audiolivros, tutores de idiomas, assistentes de voz, guias de saúde, apresentadores de notícias, atendentes de suporte ao cliente, entre outros.

Vale destacar que, ao definir cenários e ambientes, e até inserir orientações de roteiro, o modelo foi projetado para manter uma consistência no estilo de fala mesmo após múltiplas interações de diálogo. O Google explica que é possível exportar as configurações finalizadas como código API do Gemini, permitindo reproduzir a mesma voz em múltiplos projetos e plataformas.

Suporte a mais de 70 idiomas… e aplicação de marca d’água

Segundo o Google, o objetivo do Gemini 3.1 Flash TTS é oferecer uma experiência de voz mais natural. São suportados mais de 70 idiomas, incluindo japonês, hindi, alemão, entre outros.

Além disso, todo o conteúdo gerado possui uma marca d’água SynthID embutida. Essa medida visa facilitar a identificação de conteúdo de voz gerado por IA, respondendo às preocupações futuras com deepfakes ou disseminação de informações falsas.

Ranking em testes às cegas em segundo lugar… desenvolvedores podem usar imediatamente

Seu desempenho também foi validado em certa medida. No ranking “Artificial Analysis TTS”, que avalia preferências humanas em milhares de testes às cegas, o Gemini 3.1 Flash TTS ficou em segundo lugar geral com 1211 pontos. O Google afirma que isso indica uma avaliação superior a vários modelos populares de TTS.

Atualmente, desenvolvedores podem usar o modelo imediatamente via API do Gemini e Google AI Studio. Clientes empresariais podem acessá-lo pelo Vertex AI, enquanto usuários comuns podem experimentar essa funcionalidade no Google Biz.

Este lançamento demonstra que a competição em IA generativa está se expandindo rapidamente do texto e imagens para o campo da voz. Especialmente com a crescente demanda de clientes empresariais por “voz de IA natural” em mercados de suporte, produção de mídia, educação e conteúdo digital, o Gemini 3.1 Flash TTS provavelmente aumentará ainda mais a competitividade nesse mercado.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar