我觉得本周谷歌宣布的关于新 Gemini 3.1 Flash TTS 的消息非常有趣。基本上,他们成功将文本转化为 Gemini 的过程变得比以前更复杂、更先进。



这里的亮点是开发者现在可以对 AI 的发声方式进行细致控制。它不再只是那种单调的机器人生成音频。你可以调整语调、速度、口音,甚至是声音的情感表达。更酷的是?所有这些都可以通过自然语言指令实现,使用所谓的“音频标签”。如果想的话,还可以在一句话中间改变表达风格。

谷歌在多个平台上提供了这个功能:Gemini API、带有“导演椅”式直观界面的 AI Studio、面向企业的 Vertex AI,以及面向 Workspace 用户的 Google Vids。在那里有三个控制级别,大大简化了工作流程。

让我注意到的是排名。据人工分析显示,这个模型在 TTS 中排名第一,Elo 分数为 1,211,进入了“最具吸引力的象限”。它支持超过 70 种语言和多语音本地对话,提供了丰富的可能性。

还有一个重要细节:所有生成的音频都带有内置的 SynthID 水印,用于识别是否由 AI 生成。这在当前关于内容真实性的讨论中非常重要。

对于内容创作者来说,这改变了游戏规则。Gemini 的文本转化不再只是一个转换工具,而是变成了一个可编程的语音表现引擎。可以在整个产品线中持续复用语音风格,这在以前是很难实现的。值得密切关注这项技术的演进。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论