Руководитель по отношениям с разработчиками в Google AI Логан Килпатрик 15 апреля объявил о запуске Gemini 3.1 Flash TTS — новейшей модели преобразования текста в речь от Google. Эта модель поддерживает 70 языков, точный контроль уровня сценарного режиссирования (scene direction), а также уровень говорящего и аудиометки; сейчас она доступна для использования в звуковой песочнице Audio playground в Google AI Studio и в Gemini API.
Четыре ключевые функции
Gemini 3.1 Flash TTS по сравнению с предыдущей версией имеет четыре заметных улучшения:
Сценарное режиссирование (Scene Direction) — позволяет задавать голосу контекст, например «шептать в шумном кафе» или «радостно объявлять хорошие новости»; модель будет корректировать тон, темп речи и эмоциональную окраску в зависимости от ситуации
Уровень говорящего (Speaker-Level Specificity) — в диалогах с несколькими персонажами можно задавать для каждого роли свои отличительные голосовые характеристики
Аудиометки (Audio Tags) — поддерживает вставку в текст инструкций по звуковым эффектам, управляя такими деталями, как паузы и изменения интонации
Поддержка 70 языков — существенно расширяет покрытие для разных языков, включая китайский
Более естественный и выразительный звук
Google подчеркивает прогресс этой модели в естественности речи. Традиционные TTS-модели часто критикуют за то, что их вывод звучит «как AI». Gemini 3.1 Flash TTS пытается сократить разрыв с человеческой речью за счет более богатых вариаций просодии и передачи эмоций. Килпатрик отметил, что прогресс «весьма заметен» — от Gemini 2.5 до 3.1.
Как разработчики могут использовать
Разработчики могут использовать двумя способами:
Google AI Studio Audio Playground — напрямую тестировать и просматривать эффекты речи в веб-интерфейсе
Gemini API — интегрировать в приложения для таких сценариев, как голосовые помощники, аудиокниги, автоматическая генерация Podcast, многоязычная клиентская поддержка и т. п.
Линейка продуктов Gemini продолжает расширяться
Flash TTS — часть недавно интенсивно публикуемой серии Gemini 3.1. Ранее Google уже представила Gemini Robotics ER 1.6 (роботизированное зрительное логическое рассуждение), Tab Tab Tab (дополнение подсказки для Vibe Coding) и функции вроде дизайн-превью. Google развивает Gemini от «чат-модели» до полноформатной мультимодальной AI-платформы, охватывающей текст, речь, зрение и роботов.
Эта статья Google представляет Gemini 3.1 Flash TTS: поддержка 70 языков и сценарного режиссирования, более естественная AI-речь впервые появилась на Ланцюг Новости ABMedia.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Генеральный директор Google Cloud: Gemini будет обеспечивать запуск персонализированной Siri от Apple в 2026 году
Резюме: Gemini будет поддерживать персонализированную Apple Siri в 2026 году, созданную на основе моделей Apple Foundation Models и сотрудничества с Gemini; Apple тестирует чатоподобную Siri в iOS 27/macOS 27, которая запланирована к показу на WWDC 2026.
Аннотация: Google Cloud's Gemini должен обеспечивать персонализированную Apple Siri к 2026 году, сочетая Gemini с Apple's Foundation Models в рамках сотрудничества примерно на $1 миллиардов. Apple тестирует переработанную, чатоподобную Siri в iOS 27/macOS 27, с интерфейсом Dynamic Island и новыми функциями, до запланированного на WWDC 2026 анонса 8 июня.
GateNews20м назад
Сделка SpaceX-Cursor $60B предоставляет новые доказательства в поддержку аргументов СБФ о помиловании
Аннотация
SpaceX объявляет партнерство $60 миллиарда с Cursor с опционом на приобретение, формируя ходатайство СБФ о помиловании, поскольку ранняя доля Cursor у Alameda сегодня могла бы стоить примерно $3 миллиарда. Материал рассматривает утверждения СБФ о неплатежеспособности, публичные действия его родителей, возражения кредиторов и крайне малые шансы на помилование.
Краткое содержание
Сделка SpaceX-Cursor подпитывает ходатайство СБФ о помиловании; доля Alameda $200k составила бы ~ $3B сегодня (15,000x). СБФ утверждает о неплатежеспособности FTX; рынки показывают низкие шансы на помилование; Трамп вряд ли помилует.
GateNews28м назад
Акции Chegg обрушились на 99%, поскольку ИИ нарушает рынок Edtech
Кратко: Chegg взлетела на фоне спроса на онлайн-образование, затем инструменты на базе ИИ нарушили ее модель, что привело к массовым увольнениям и падению ниже $2, при этом более широкие изменения, обусловленные ИИ, ударили по майнерам криптовалют и финтех-компаниям.
Аннотация: В этой статье рассматривается рост Chegg как любимца edtech в эпоху пандемии и ее последующее падение на фоне быстрого внедрения генеративного ИИ, который дает быстрые ответы и подрывает ценностное предложение Chegg. В ней описываются увольнения в 2025 году и обвал акций до уровня, близкого к исключению из листинга, а также опыт Chegg вписывается в более широкий контекст сбоя, вызванного ИИ и меняющего технологический сектор и криптоиндустрию: майнеры Bitcoin переходят к операциям на базе ИИ, а AI-ориентированные стратегии заново определяют конкурентоспособность в финтехе и за его пределами.
CryptoFrontier38м назад
OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн
Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация.
Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.
GateNews1ч назад
OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году
OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения.
OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.
GateNews1ч назад
Агент 360 для обнаружения уязвимостей на базе ИИ находит почти 1 000 нулевых дней с эксплойтом, конкурируя с Mythos
Агент на базе ИИ от 360 Digital Security утверждает, что нашёл около 1 000 новых уязвимостей, включая в Office и OpenClaw; сейчас ИИ является ключевым для обнаружения и подготовки цепочек эксплуатации, соперничая с Mythos.
Абстракт: В отчёте, на который ссылается Bloomberg, говорится, что Vulnerability Discovery Agent компании 360 Digital Security на базе ИИ выявил почти 1 000 ранее неизвестных уязвимостей за последние месяцы, включая уязвимости в Microsoft Office и в фреймворке OpenClaw. Компания заявляет, что ИИ стал основным движком для обнаружения уязвимостей, и объявила об инструменте на базе ИИ, который ускорит построение цепочек эксплуатации. Бенинкаса описывает 360 как конкурента Mythos от Anthropic на основе обзора китайскоязычных анонсов компании, сделанного Natto Thoughts.
GateNews1ч назад