Google запускает Gemini 3.1 Flash TTS: поддерживает 70 языков и сценарное режиссирование в разных ситуациях, ИИ-голос звучит естественнее

Руководитель по отношениям с разработчиками в Google AI Логан Килпатрик 15 апреля объявил о запуске Gemini 3.1 Flash TTS — новейшей модели преобразования текста в речь от Google. Эта модель поддерживает 70 языков, точный контроль уровня сценарного режиссирования (scene direction), а также уровень говорящего и аудиометки; сейчас она доступна для использования в звуковой песочнице Audio playground в Google AI Studio и в Gemini API.

Четыре ключевые функции

Gemini 3.1 Flash TTS по сравнению с предыдущей версией имеет четыре заметных улучшения:

Сценарное режиссирование (Scene Direction) — позволяет задавать голосу контекст, например «шептать в шумном кафе» или «радостно объявлять хорошие новости»; модель будет корректировать тон, темп речи и эмоциональную окраску в зависимости от ситуации

Уровень говорящего (Speaker-Level Specificity) — в диалогах с несколькими персонажами можно задавать для каждого роли свои отличительные голосовые характеристики

Аудиометки (Audio Tags) — поддерживает вставку в текст инструкций по звуковым эффектам, управляя такими деталями, как паузы и изменения интонации

Поддержка 70 языков — существенно расширяет покрытие для разных языков, включая китайский

Более естественный и выразительный звук

Google подчеркивает прогресс этой модели в естественности речи. Традиционные TTS-модели часто критикуют за то, что их вывод звучит «как AI». Gemini 3.1 Flash TTS пытается сократить разрыв с человеческой речью за счет более богатых вариаций просодии и передачи эмоций. Килпатрик отметил, что прогресс «весьма заметен» — от Gemini 2.5 до 3.1.

Как разработчики могут использовать

Разработчики могут использовать двумя способами:

Google AI Studio Audio Playground — напрямую тестировать и просматривать эффекты речи в веб-интерфейсе

Gemini API — интегрировать в приложения для таких сценариев, как голосовые помощники, аудиокниги, автоматическая генерация Podcast, многоязычная клиентская поддержка и т. п.

Линейка продуктов Gemini продолжает расширяться

Flash TTS — часть недавно интенсивно публикуемой серии Gemini 3.1. Ранее Google уже представила Gemini Robotics ER 1.6 (роботизированное зрительное логическое рассуждение), Tab Tab Tab (дополнение подсказки для Vibe Coding) и функции вроде дизайн-превью. Google развивает Gemini от «чат-модели» до полноформатной мультимодальной AI-платформы, охватывающей текст, речь, зрение и роботов.

Эта статья Google представляет Gemini 3.1 Flash TTS: поддержка 70 языков и сценарного режиссирования, более естественная AI-речь впервые появилась на Ланцюг Новости ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Генеральный директор Google Cloud: Gemini будет обеспечивать запуск персонализированной Siri от Apple в 2026 году

Резюме: Gemini будет поддерживать персонализированную Apple Siri в 2026 году, созданную на основе моделей Apple Foundation Models и сотрудничества с Gemini; Apple тестирует чатоподобную Siri в iOS 27/macOS 27, которая запланирована к показу на WWDC 2026. Аннотация: Google Cloud's Gemini должен обеспечивать персонализированную Apple Siri к 2026 году, сочетая Gemini с Apple's Foundation Models в рамках сотрудничества примерно на $1 миллиардов. Apple тестирует переработанную, чатоподобную Siri в iOS 27/macOS 27, с интерфейсом Dynamic Island и новыми функциями, до запланированного на WWDC 2026 анонса 8 июня.

GateNews20м назад

Сделка SpaceX-Cursor $60B предоставляет новые доказательства в поддержку аргументов СБФ о помиловании

Аннотация SpaceX объявляет партнерство $60 миллиарда с Cursor с опционом на приобретение, формируя ходатайство СБФ о помиловании, поскольку ранняя доля Cursor у Alameda сегодня могла бы стоить примерно $3 миллиарда. Материал рассматривает утверждения СБФ о неплатежеспособности, публичные действия его родителей, возражения кредиторов и крайне малые шансы на помилование. Краткое содержание Сделка SpaceX-Cursor подпитывает ходатайство СБФ о помиловании; доля Alameda $200k составила бы ~ $3B сегодня (15,000x). СБФ утверждает о неплатежеспособности FTX; рынки показывают низкие шансы на помилование; Трамп вряд ли помилует.

GateNews28м назад

Акции Chegg обрушились на 99%, поскольку ИИ нарушает рынок Edtech

Кратко: Chegg взлетела на фоне спроса на онлайн-образование, затем инструменты на базе ИИ нарушили ее модель, что привело к массовым увольнениям и падению ниже $2, при этом более широкие изменения, обусловленные ИИ, ударили по майнерам криптовалют и финтех-компаниям. Аннотация: В этой статье рассматривается рост Chegg как любимца edtech в эпоху пандемии и ее последующее падение на фоне быстрого внедрения генеративного ИИ, который дает быстрые ответы и подрывает ценностное предложение Chegg. В ней описываются увольнения в 2025 году и обвал акций до уровня, близкого к исключению из листинга, а также опыт Chegg вписывается в более широкий контекст сбоя, вызванного ИИ и меняющего технологический сектор и криптоиндустрию: майнеры Bitcoin переходят к операциям на базе ИИ, а AI-ориентированные стратегии заново определяют конкурентоспособность в финтехе и за его пределами.

CryptoFrontier38м назад

OpenAI выпустила модель с открытым исходным кодом для обнаружения и редактирования ПДн

Аннотация: Фильтр конфиденциальности OpenAI — это модель с открытым исходным кодом, выполняемая локально, которая обнаруживает и редактирует ПДн (персональные данные) в тексте. Она поддерживает большие контексты, выявляет множество категорий ПДн и предназначена для рабочих процессов с сохранением конфиденциальности, таких как подготовка данных, индексация, логирование и модерация. Фильтр конфиденциальности OpenAI — это локально запускаемая модель с открытым исходным кодом (128k-token context), которая обнаруживает и редактирует ПДн (персональные данные) в тексте, охватывая контактные, финансовые и учетные данные для рабочих процессов по защите конфиденциальности.

GateNews1ч назад

OpenAI планирует развернуть 30 ГВт вычислительных мощностей к 2030 году

OpenAI планирует обеспечить 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, при этом уже завершено 8 ГВт из целевых 10 ГВт на 2025 год. Расширение сигнализирует о стратегии наращивания инфраструктуры для разработки и развертывания ИИ следующего поколения. OpenAI намерена достичь 30 ГВт вычислительных мощностей к 2030 году, чтобы удовлетворить растущий спрос на ИИ, уже завершив 8 ГВт из целевого показателя 10 ГВт на 2025 год. Действие отражает стратегическое расширение инфраструктуры для поддержки разработки и развертывания ИИ следующего поколения.

GateNews1ч назад

Агент 360 для обнаружения уязвимостей на базе ИИ находит почти 1 000 нулевых дней с эксплойтом, конкурируя с Mythos

Агент на базе ИИ от 360 Digital Security утверждает, что нашёл около 1 000 новых уязвимостей, включая в Office и OpenClaw; сейчас ИИ является ключевым для обнаружения и подготовки цепочек эксплуатации, соперничая с Mythos. Абстракт: В отчёте, на который ссылается Bloomberg, говорится, что Vulnerability Discovery Agent компании 360 Digital Security на базе ИИ выявил почти 1 000 ранее неизвестных уязвимостей за последние месяцы, включая уязвимости в Microsoft Office и в фреймворке OpenClaw. Компания заявляет, что ИИ стал основным движком для обнаружения уязвимостей, и объявила об инструменте на базе ИИ, который ускорит построение цепочек эксплуатации. Бенинкаса описывает 360 как конкурента Mythos от Anthropic на основе обзора китайскоязычных анонсов компании, сделанного Natto Thoughts.

GateNews1ч назад
комментарий
0/400
Нет комментариев