A Google lança o Gemini 3.1 Flash TTS: suporta 70 línguas e cenários para encenação, voz de IA mais natural

O responsável pelas relações com programadores da Google para IA, Logan Kilpatrick, anunciou a disponibilização do Gemini 3.1 Flash TTS no dia 15 de abril — o modelo mais recente de texto-para-voz da Google. Este modelo suporta 70 línguas, controlo pormenorizado ao nível de cenários (scene direction) e do tipo de orador, bem como etiquetas de áudio; atualmente, já está disponível para utilização no audio playground da Google AI Studio e na Gemini API.

Quatro funcionalidades centrais

O Gemini 3.1 Flash TTS, em comparação com a geração anterior, tem quatro melhorias evidentes:

Direção de cena (Scene Direction) — permite definir o contexto para a voz, por exemplo, “falar baixinho num café barulhento” ou “anunciar entusiasmado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário

Controlo ao nível do orador (Speaker-Level Specificity) — em conversas com múltiplos intervenientes, pode definir características de voz diferentes para cada personagem

Etiquetas de áudio (Audio Tags) — permite inserir instruções de efeitos sonoros no texto, controlando detalhes como pausas e variações de entoação

Suporte a 70 línguas — expande significativamente a cobertura multilingue, incluindo chinês

Uma voz mais natural e expressiva

A Google sublinha os progressos deste modelo na naturalidade da voz. Os modelos tradicionais de TTS são frequentemente criticados por produzirem uma saída que “soa como IA”; o Gemini 3.1 Flash TTS procura reduzir a distância para a voz humana através de variações de prosódia e expressão emocional mais ricas. Kilpatrick aponta que a evolução “é bastante significativa” de Gemini 2.5 para 3.1.

Como os programadores podem usar

Os programadores podem utilizá-lo de duas formas:

Google AI Studio Audio Playground — testar e pré-visualizar diretamente os efeitos de voz na interface Web

Gemini API — integrá-lo nas aplicações, para cenários como assistentes de voz, audiolivros, geração automática de Podcast, apoio ao cliente multilingue, entre outros

A linha de produtos da Gemini continua a expandir-se

O Flash TTS faz parte do conjunto de lançamentos recentes e intensos da série Gemini 3.1. Anteriormente, a Google já tinha apresentado o Gemini Robotics ER 1.6 (raciocínio visual para robôs), Tab Tab Tab (preenchimento de prompt de Vibe Coding) e funções como design preview. A Google está a expandir a Gemini, de “modelo de conversação”, para uma plataforma de IA multimodal completa que abrange texto, voz, visão e robôs.

Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporta 70 línguas e direção de cena; voz de IA mais natural” surgiu pela primeira vez em Cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

DeepSeek Procura Financiamento de 1,8 mil milhões de dólares a uma Valorização de $20B em Meio a uma Fuga de Talentos

Mensagem do Gate News, 25 de Abril — A DeepSeek planeia angariar 1,8 mil milhões de dólares, avaliando a empresa em aproximadamente $20 mil milhões, segundo fontes familiarizadas com o assunto. A iniciativa de angariação de fundos surge num momento em que a startup de IA enfrenta uma saída significativa de talentos, com vários investigadores fundamentais a deixarem a empresa para

GateNews4h atrás

Juiz rejeita alegações de fraude no processo de Elon Musk contra a OpenAI; caso avança para julgamento com duas alegações remanescentes

Notícias do Gate, 24 de abril — Um juiz federal indeferiu as acusações de fraude do processo de Elon Musk contra a OpenAI, Sam Altman, Greg Brockman e a Microsoft, abrindo caminho para que o caso avance para julgamento com base em duas alegações que permanecem: violação de confiança fiduciária de caráter beneficente e enriquecimento sem causa. EUA.

GateNews7h atrás

O CEO da OpenAI, Sam Altman, pede desculpa por não ter denunciado às autoridades a conta banida do atirador da escola

Mensagem do Gate News, 25 de abril — O director executivo da OpenAI, Sam Altman, pediu desculpa à comunidade de Tamborine, no Canadá, pela falha da empresa em notificar a polícia sobre uma conta banida associada a Jesse Van Rootselaar, que matou oito pessoas numa escola em fevereiro antes de tirar a própria vida. OpenAI

GateNews7h atrás

Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos

Sua Alteza o Sheikha Mohammed bin Rashid Al Maktoum afirmou que o objectivo era fazer com que 50% dos sectores do governo operassem através de IA agentic autónoma. A transição irá também incluir a formação dos funcionários federais para “dominar a IA” e será supervisionada por Sheikh Mansour bin Zayed. Principais Conclusões:

Coinpedia8h atrás

Plataforma de Negociação com IA Fere AI Angaria $1,3M em Financiamento Liderado pela Ethereal Ventures

Notícia da Gate, 25 de abril — Fere AI, uma plataforma de negociação de ativos digitais com base em IA, anunciou a conclusão de uma ronda de financiamento de $1,3 milhões liderada pela Ethereal Ventures, com participação da Galaxy Vision Hill e da Kosmos Ventures, de acordo com a Globenewswire. A plataforma suporta redes de interoperabilidade entre cadeias, incluindo Ethereum, Solana e Base, permitindo que os utilizadores descrevam os seus objetivos de negociação em linguagem natural enquanto os agentes de IA executam as operações.

GateNews9h atrás

A Google acrescenta mais 40 mil milhões de dólares de investimento na Anthropic: primeiro paga 10 mil milhões, depois liberta 30 mil milhões consoante o desempenho, com capacidade de computação de 5GW de TPU

Alphabet aumenta o investimento da Anthropic para 40 mil milhões de dólares, em duas fases: primeira entrada de 10 mil milhões de dólares em dinheiro, com uma avaliação de 380 mil milhões de dólares; os restantes 30 mil milhões de dólares serão libertados faseadamente após o cumprimento de metas de resultados. O Google Cloud disponibiliza, no prazo de cinco anos, recursos de computação de 5 GW de TPU; no mesmo período, a Amazon também anunciou um investimento máximo de 25 mil milhões de dólares, mostrando que o apoio tanto à capacidade de computação como ao capital da Anthropic está a ser reforçado em simultâneo.

ChainNewsAbmedia9h atrás
Comentar
0/400
Nenhum comentário