A DeepMind do Google lançou o novo modelo de síntese de voz "Gemini 3.1 Flash TTS", que permite ajustar tom, velocidade e atmosfera por meio de comandos de texto, suportando mais de 70 idiomas e diversos sotaques. O modelo foca na naturalidade e possui função de marca d'água para combater informações falsas. Seu desempenho ficou em segundo lugar em testes às cegas, sendo aplicável a múltiplos setores, marcando um aumento na competição de IA de geração de voz.

TechubNews

2026-04-17 13:48:52

Geração do resumo em andamento

O grupo de inteligência artificial do Google, DeepMind, divulgou um novo modelo de síntese de voz chamado “Gemini 3.1 Flash TTS”. Seu núcleo está em não apenas falar de forma mais natural do que as vozes mecânicas existentes, mas também permitir que os usuários ajustem detalhadamente o tom, velocidade e atmosfera apenas com comandos de texto.

Controle de tom, entonação e velocidade por comandos de texto

Recentemente, a responsabilidade limitada do Google anunciou em seu blog o lançamento do Gemini 3.1 Flash TTS. O modelo consegue refletir palavras-chave de comando como “entusiasmado”, “surpreso” e “transmissão de informações” ao converter respostas de chatbots em voz, alterando o tom e a timbre.

De acordo com um vídeo de demonstração divulgado, os usuários podem não apenas escolher a voz, mas também ajustar a forma de transmissão e a atmosfera da fala. Se a geração anterior de TTS parecia um pouco “robótica”, esta nova geração foca em alcançar uma expressão mais próxima da humana.

Suporte a sotaques regionais do inglês e formato de podcast

O Gemini 3.1 Flash TTS também oferece sotaques regionais em várias línguas principais. No caso do inglês, é possível escolher entre sotaques americanos “Valley” e “Southern”, além de variantes britânicas como “Brixton” e “RP”. Também inclui opções especiais como sotaques “transatlântico”.

O Google adicionou ao modelo uma funcionalidade de “controle de nível diretor”. Os usuários podem ajustar com mais precisão o estilo de fala e a velocidade, além de usar modelos de diálogo de podcast, narração de audiolivros, tutores de idiomas, assistentes de voz, guias de saúde, apresentadores de notícias, atendentes de suporte ao cliente, entre outros.

Vale destacar que, ao definir cenários e ambientes, e até inserir orientações de roteiro, o modelo foi projetado para manter uma consistência no estilo de fala mesmo após múltiplas interações de diálogo. O Google explica que é possível exportar as configurações finalizadas como código API do Gemini, permitindo reproduzir a mesma voz em múltiplos projetos e plataformas.

Suporte a mais de 70 idiomas… e aplicação de marca d’água

Segundo o Google, o objetivo do Gemini 3.1 Flash TTS é oferecer uma experiência de voz mais natural. São suportados mais de 70 idiomas, incluindo japonês, hindi, alemão, entre outros.

Além disso, todo o conteúdo gerado possui uma marca d’água SynthID embutida. Essa medida visa facilitar a identificação de conteúdo de voz gerado por IA, respondendo às preocupações futuras com deepfakes ou disseminação de informações falsas.

Ranking em testes às cegas em segundo lugar… desenvolvedores podem usar imediatamente

Seu desempenho também foi validado em certa medida. No ranking “Artificial Analysis TTS”, que avalia preferências humanas em milhares de testes às cegas, o Gemini 3.1 Flash TTS ficou em segundo lugar geral com 1211 pontos. O Google afirma que isso indica uma avaliação superior a vários modelos populares de TTS.

Atualmente, desenvolvedores podem usar o modelo imediatamente via API do Gemini e Google AI Studio. Clientes empresariais podem acessá-lo pelo Vertex AI, enquanto usuários comuns podem experimentar essa funcionalidade no Google Biz.

Este lançamento demonstra que a competição em IA generativa está se expandindo rapidamente do texto e imagens para o campo da voz. Especialmente com a crescente demanda de clientes empresariais por “voz de IA natural” em mercados de suporte, produção de mídia, educação e conteúdo digital, o Gemini 3.1 Flash TTS provavelmente aumentará ainda mais a competitividade nesse mercado.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GatePreIPOsLaunchesWithSpaceX
189.27K Popularidade
#
Gate13thAnniversaryLive
653.76K Popularidade
#
IsraelStrikesIranBTCPlunges
30.03K Popularidade
#
AltcoinsRallyStrong
7.31M Popularidade
#
AnthropicvsOpenAIHeatsUp
1.06M Popularidade

Marcar

sitemap

Google DeepMind, lançou 'Gemini 3.1 Flash TTS'… pode ajustar o tom e a velocidade da fala por texto

Tendências

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Marcar