O responsável pelas relações com programadores da Google para IA, Logan Kilpatrick, anunciou a disponibilização do Gemini 3.1 Flash TTS no dia 15 de abril — o modelo mais recente de texto-para-voz da Google. Este modelo suporta 70 línguas, controlo pormenorizado ao nível de cenários (scene direction) e do tipo de orador, bem como etiquetas de áudio; atualmente, já está disponível para utilização no audio playground da Google AI Studio e na Gemini API.

Quatro funcionalidades centrais

O Gemini 3.1 Flash TTS, em comparação com a geração anterior, tem quatro melhorias evidentes:

Direção de cena (Scene Direction) — permite definir o contexto para a voz, por exemplo, “falar baixinho num café barulhento” ou “anunciar entusiasmado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário

Controlo ao nível do orador (Speaker-Level Specificity) — em conversas com múltiplos intervenientes, pode definir características de voz diferentes para cada personagem

Etiquetas de áudio (Audio Tags) — permite inserir instruções de efeitos sonoros no texto, controlando detalhes como pausas e variações de entoação

Suporte a 70 línguas — expande significativamente a cobertura multilingue, incluindo chinês

Uma voz mais natural e expressiva

A Google sublinha os progressos deste modelo na naturalidade da voz. Os modelos tradicionais de TTS são frequentemente criticados por produzirem uma saída que “soa como IA”; o Gemini 3.1 Flash TTS procura reduzir a distância para a voz humana através de variações de prosódia e expressão emocional mais ricas. Kilpatrick aponta que a evolução “é bastante significativa” de Gemini 2.5 para 3.1.

Como os programadores podem usar

Os programadores podem utilizá-lo de duas formas:

Google AI Studio Audio Playground — testar e pré-visualizar diretamente os efeitos de voz na interface Web

Gemini API — integrá-lo nas aplicações, para cenários como assistentes de voz, audiolivros, geração automática de Podcast, apoio ao cliente multilingue, entre outros

A linha de produtos da Gemini continua a expandir-se

O Flash TTS faz parte do conjunto de lançamentos recentes e intensos da série Gemini 3.1. Anteriormente, a Google já tinha apresentado o Gemini Robotics ER 1.6 (raciocínio visual para robôs), Tab Tab Tab (preenchimento de prompt de Vibe Coding) e funções como design preview. A Google está a expandir a Gemini, de “modelo de conversação”, para uma plataforma de IA multimodal completa que abrange texto, voz, visão e robôs.

Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporta 70 línguas e direção de cena; voz de IA mais natural” surgiu pela primeira vez em Cadeia de notícias ABMedia.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

DeepSeek Procura Financiamento de 1,8 mil milhões de dólares a uma Valorização de $20B em Meio a uma Fuga de Talentos

Notícias da indústria de IA

Mensagem do Gate News, 25 de Abril — A DeepSeek planeia angariar 1,8 mil milhões de dólares, avaliando a empresa em aproximadamente $20 mil milhões, segundo fontes familiarizadas com o assunto. A iniciativa de angariação de fundos surge num momento em que a startup de IA enfrenta uma saída significativa de talentos, com vários investigadores fundamentais a deixarem a empresa para

GateNews4h atrás

Juiz rejeita alegações de fraude no processo de Elon Musk contra a OpenAI; caso avança para julgamento com duas alegações remanescentes

Notícias da indústria de IA

Notícias do Gate, 24 de abril — Um juiz federal indeferiu as acusações de fraude do processo de Elon Musk contra a OpenAI, Sam Altman, Greg Brockman e a Microsoft, abrindo caminho para que o caso avance para julgamento com base em duas alegações que permanecem: violação de confiança fiduciária de caráter beneficente e enriquecimento sem causa. EUA.

GateNews7h atrás

O CEO da OpenAI, Sam Altman, pede desculpa por não ter denunciado às autoridades a conta banida do atirador da escola

Notícias da indústria de IA

Mensagem do Gate News, 25 de abril — O director executivo da OpenAI, Sam Altman, pediu desculpa à comunidade de Tamborine, no Canadá, pela falha da empresa em notificar a polícia sobre uma conta banida associada a Jesse Van Rootselaar, que matou oito pessoas numa escola em fevereiro antes de tirar a própria vida. OpenAI

GateNews7h atrás

Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos

Agente de IA Notícias da indústria de IA

Sua Alteza o Sheikha Mohammed bin Rashid Al Maktoum afirmou que o objectivo era fazer com que 50% dos sectores do governo operassem através de IA agentic autónoma. A transição irá também incluir a formação dos funcionários federais para “dominar a IA” e será supervisionada por Sheikh Mansour bin Zayed. Principais Conclusões:

Coinpedia8h atrás

Plataforma de Negociação com IA Fere AI Angaria $1,3M em Financiamento Liderado pela Ethereal Ventures

Agente de IA Notícias da indústria de IA

Notícia da Gate, 25 de abril — Fere AI, uma plataforma de negociação de ativos digitais com base em IA, anunciou a conclusão de uma ronda de financiamento de $1,3 milhões liderada pela Ethereal Ventures, com participação da Galaxy Vision Hill e da Kosmos Ventures, de acordo com a Globenewswire. A plataforma suporta redes de interoperabilidade entre cadeias, incluindo Ethereum, Solana e Base, permitindo que os utilizadores descrevam os seus objetivos de negociação em linguagem natural enquanto os agentes de IA executam as operações.

GateNews9h atrás

A Google acrescenta mais 40 mil milhões de dólares de investimento na Anthropic: primeiro paga 10 mil milhões, depois liberta 30 mil milhões consoante o desempenho, com capacidade de computação de 5GW de TPU

Notícias da indústria de IA

Alphabet aumenta o investimento da Anthropic para 40 mil milhões de dólares, em duas fases: primeira entrada de 10 mil milhões de dólares em dinheiro, com uma avaliação de 380 mil milhões de dólares; os restantes 30 mil milhões de dólares serão libertados faseadamente após o cumprimento de metas de resultados. O Google Cloud disponibiliza, no prazo de cinco anos, recursos de computação de 5 GW de TPU; no mesmo período, a Amazon também anunciou um investimento máximo de 25 mil milhões de dólares, mostrando que o apoio tanto à capacidade de computação como ao capital da Anthropic está a ser reforçado em simultâneo.

ChainNewsAbmedia9h atrás

Comentar

0/400

Nenhum comentário