🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
我觉得本周谷歌宣布的关于新 Gemini 3.1 Flash TTS 的消息非常有趣。基本上,他们成功将文本转化为 Gemini 的过程变得比以前更复杂、更先进。
这里的亮点是开发者现在可以对 AI 的发声方式进行细致控制。它不再只是那种单调的机器人生成音频。你可以调整语调、速度、口音,甚至是声音的情感表达。更酷的是?所有这些都可以通过自然语言指令实现,使用所谓的“音频标签”。如果想的话,还可以在一句话中间改变表达风格。
谷歌在多个平台上提供了这个功能:Gemini API、带有“导演椅”式直观界面的 AI Studio、面向企业的 Vertex AI,以及面向 Workspace 用户的 Google Vids。在那里有三个控制级别,大大简化了工作流程。
让我注意到的是排名。据人工分析显示,这个模型在 TTS 中排名第一,Elo 分数为 1,211,进入了“最具吸引力的象限”。它支持超过 70 种语言和多语音本地对话,提供了丰富的可能性。
还有一个重要细节:所有生成的音频都带有内置的 SynthID 水印,用于识别是否由 AI 生成。这在当前关于内容真实性的讨论中非常重要。
对于内容创作者来说,这改变了游戏规则。Gemini 的文本转化不再只是一个转换工具,而是变成了一个可编程的语音表现引擎。可以在整个产品线中持续复用语音风格,这在以前是很难实现的。值得密切关注这项技术的演进。