Google выпустила обновлённую модель для озвучки текста на базе Gemini 3.1 Flash — она обходит ElevenLabs V3
Компания добавила систему тегов, в которых можно прописать эмоции.
Здесь и далее источник: Google
- Компания представила модель Gemini 3.1 Flash TTS для преобразования текста в аудио. В тестах исследователей из Artificial Analysis она обошла последнюю модель v3 от стартапа ElevenLabs. Превзошла Gemini 3.1 только модель от команды Inworld.
- С выходом 3.1 Flash TTS компания добавила аудиотеги, которые есть и у ElevenLabs. В квадратных скобках внутри текста для озвучки можно прописывать эмоции или другие ремарки, например «шепчет», «кричит» или «говорит взволнованно».
Пример работы системы тегов
Примеры озвучки Gemini 3.1 Flash TTS
- Модель поддерживает более 70 языков, включая русский. Её можно протестировать в Google AI Studio или подключить к своему приложению или ИИ-агенту через API Gemini, Vertex AI или Google Workspace в разделе «Видео». Цена — $1 за 1 млн входящих токенов текста и $20 за 1 млн токенов генерируемого аудио.
13 комментариев