Google выпустила обновлённую модель для озвучки текста на базе Gemini 3.1 Flash — она обходит ElevenLabs V3

Компания добавила систему тегов, в которых можно прописать эмоции.

Здесь и далее источник: Google
  • Компания представила модель Gemini 3.1 Flash TTS для преобразования текста в аудио. В тестах исследователей из Artificial Analysis она обошла последнюю модель v3 от стартапа ElevenLabs. Превзошла Gemini 3.1 только модель от команды Inworld.
Google выпустила обновлённую модель для озвучки текста на базе Gemini 3.1 Flash — она обходит ElevenLabs V3
  • С выходом 3.1 Flash TTS компания добавила аудиотеги, которые есть и у ElevenLabs. В квадратных скобках внутри текста для озвучки можно прописывать эмоции или другие ремарки, например «шепчет», «кричит» или «говорит взволнованно».

Пример работы системы тегов

Примеры озвучки Gemini 3.1 Flash TTS

  • Модель поддерживает более 70 языков, включая русский. Её можно протестировать в Google AI Studio или подключить к своему приложению или ИИ-агенту через API Gemini, Vertex AI или Google Workspace в разделе «Видео». Цена — $1 за 1 млн входящих токенов текста и $20 за 1 млн токенов генерируемого аудио.
17
2
1
1
13 комментариев