Seedance 2.0 и русский язык

Школьные уроки русского языка еще никогда не казались такими актуальными. Мои тесты диалогов в Seedance 2.0 превратились в настоящую битву за чистоту фонетики. Рассказываю по порядку, что из этого вышло и где у модели "слабое звено"

Сработал приём speech-test staging: два персонажа, крупные планы, видимый рот и короткая реплика, встроенная в конкретный тайминг. Отдельно тестировала растяжение слова внутри реплики: вместо обычного «Поздно» дала на вход «Поооздноооо»

Диалог на английском

Seedance 2.0 позиционируется как мультимодальная система, способная генерировать видео и аудио (голос, SFX, музыку) в едином цикле. Это позволяет создавать говорящие сцены без стороннего озвучания, но на практике заявленная многоязычность не гарантирует одинаковую стабильность для всех языков.

Задачей теста была проверка нативной русской речи внутри генерации сцены: без внешних дорожек, с акцентом на «честный» lip-sync.

В ходе тестов было перепробовано практически всё:

Работа с текстом: чистая кириллица, транслит, гибриды кириллицы и латиницы внутри слов и строк, разбивка длинных монологов на короткие фразы, использование прозы и поэзии.
Система ограничений: прямые запреты в промпте («не менять язык», «не переводить», «не нормализовать», «не украинский/белорусский»).
«Китайский вектор»: инструкции на китайском с русскими вставками, полностью китайские промпты без английских слов, а также китайский «фонетический мост» с латинскими подсказками произношения.
Смешанные языки: тесты с двумя языками в одном видео тоже не дали устойчивого результата. Иногда английская или китайская часть держалась лучше, а русская начинала «плыть». Но бывало и наоборот: после русской реплики следующая английская фраза тоже становилась искажённой — с неправильным произношением, сбитым ритмом или странной артикуляцией.
Саунд-дизайн и терминология: описание речи не как диалога, а как звукового слоя (sound layer); использование команд вроде ON-SCREEN VOCAL PERFORMANCE для усиления артикуляции.
Попытки обмануть систему: * Создание silent lip-sync (беззвучной артикуляции) под последующую внешнюю озвучку.
Сюжетный маневр про «немую героиню, у которой русалка украла голос» (чтобы логически оправдать отсутствие звука).
Техническая разметка: попытки расставлять ударения и специальные символы для коррекции фонетики.

Результат частичный: 15-секундная сцена редко выдерживала норму до конца. Если первые короткие фразы звучали приемлемо, то к финалу голос неизбежно «улетал» в акцент или смешанную интонацию.

Точечные приемы не стали универсальным решением. Даже silent lip-sync не сработал: в архитектуре Seedance 2.0 речь и артикуляция жестко сцеплены, поэтому модель все равно возвращала голос. Добиться стабильной тишины или корректного русского произношения на всем отрезке внутри генерации удаётся со скрипом.

Смешанный диалог: китайский / английский

В какой-то момент мои нервы сказали «arrivederci», и я обратилась напрямую в поддержку BytePlus. С вопросом о существовании регламентированного способа промптинга для точной русской озвучки и lip-sync.

Ответ подтвердил ключевое ограничение: на данный момент нет ни отдельной настройки, ни гарантированного способа добиться стабильной русской речи.

BytePlus пояснили, что модель обладает сильным многоязычным пониманием, но китайский и английский работают для неё фактически на одном уровне, а при использовании других, менее крупных языков возможна semantic conversion loss — потеря или искажение при преобразовании. Для таких языков они рекомендуют явно маркировать целевой язык в промпте:

*The character says in Russian: «…»*

Модель понимает задачу на уровне контекста, но стабильность русской фонетики не гарантируется.

На основе многократных тестов можно выдвинуть рабочее предположение: слабым местом оказывается фонетическая устойчивость слоя dialogue. Проблема не в том, что модель не понимает русский на уровне смысла, а в том, что при генерации речи она не всегда стабильно удерживает стандартную русскую норму — произношение, ударения, ритм и артикуляцию.

Думаю, это связано со следующими факторами:

✴Эффект «славянского гибрида». Русский, украинский и белорусский — близкородственные восточнославянские языки с высокой степенью фонетического и грамматического родства. Если speech layer недостаточно жёстко «заякорен» на стандартную русскую норму, модель может уходить в вероятностный дрейф — выдавать славянский гибрид или смешанный акцент.

✴Фонетическая сложность, чтобы русская речь звучала естественно, модель должна одновременно удерживать несколько параметров:

редукцию безударных гласных, особенно «о» и «а»;
систему твёрдости и мягкости согласных;
подвижное ударение и чистоту шипящих и свистящих;
ритмико-интонационный рисунок, характерный для русской речи.

Seedance 2.0 понимает команду Russian, но не всегда может удерживает русскую фонетическую норму до конца сцены.

1. ✨ Фиксированный порядок функционального диалога: Героиня: ... / Русалка: ...

два перса, крупные или средние планы, видимый рот, без музыки, без сложных событий, короткие реплики в кадре. Важно прямо прописывать, что это не voice-over, не перевод и не закадровая речь, а персонаж сам произносит фразу в кадре + тайминг сцены

2. ✨ Для каждой русской реплики отдельно указывала говорящего, язык и манеру произнесения: The heroine says in Russian, clearly and naturally, quietly / The companion says in Russian, clearly and naturally, softly, а затем давала саму фразу в кириллице.

Короткая реплика встроена в конкретный тайминг и кадр

3. ✨ Связка: one Russian word + low / firm / natural voice + visible face / open helmet + light spatial reverb + keep Cyrillic + do not translate/rewrite + natural Russian pronunciation

Одно слово, крупный план лица, открытый шлем, видимый рот, лёгкий пространственный реверб и сразу действие

4. ✨ Сработала рекомендованная маркировка: *The character says in Russian: «…»*

Короткая реплика, близкий фронтальный кадр героини с хорошо видимым ртом, без сильного угла лица, и сразу переход к следующему действию

✨ Итого: лучше всего работают короткие русские фразы в крупном фронтальном кадре с хорошо видимым ртом, минимальным поворотом головы, простой формулировкой реплики и быстрым переходом в следующее действие. Именно такая подача дала самый чистый результат.

Seedance 2.0 и русский язык

Мультимодальный вызов: ожидания vs реальность

Вердикт поддержки BytePlus

Техническая гипотеза: почему «плывет» русский язык

Практические наблюдения