这里的亮点是开发者现在可以对 AI 的发声方式进行细致控制。它不再只是那种单调的机器人生成音频。你可以调整语调、速度、口音，甚至是声音的情感表达。更酷的是？所有这些都可以通过自然语言指令实现，使用所谓的“音频标签”。如果想的话，还可以在一句话中间改变表达风格。

谷歌在多个平台上提供了这个功能：Gemini API、带有“导演椅”式直观界面的 AI Studio、面向企业的 Vertex AI，以及面向 Workspace 用户的 Google Vids。在那里有三个控制级别，大大简化了工作流程。

让我注意到的是排名。据人工分析显示，这个模型在 TTS 中排名第一，Elo 分数为 1,211，进入了“最具吸引力的象限”。它支持超过 70 种语言和多语音本地对话，提供了丰富的可能性。

还有一个重要细节：所有生成的音频都带有内置的 SynthID 水印，用于识别是否由 AI 生成。这在当前关于内容真实性的讨论中非常重要。

对于内容创作者来说，这改变了游戏规则。Gemini 的文本转化不再只是一个转换工具，而是变成了一个可编程的语音表现引擎。可以在整个产品线中持续复用语音风格，这在以前是很难实现的。值得密切关注这项技术的演进。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年现场直击
113.01万热度
#
WCTC交易赛瓜分800万USDT
83.2万热度
#
加密市场行情震荡
20.18万热度
#
rsETH攻击事件后续进展
7.68万热度
#
美伊谈判陷入僵局
48.81万热度

我觉得本周谷歌宣布的关于新 Gemini 3.1 Flash TTS 的消息非常有趣。基本上，他们成功将文本转化为 Gemini 的过程变得比以前更复杂、更先进。

热门话题

Gate13周年现场直击

WCTC交易赛瓜分800万USDT

加密市场行情震荡

rsETH攻击事件后续进展

美伊谈判陷入僵局

置顶