Kling 3.0: что нового, как пользоваться и как получить доступ

Kling 3.0: что нового, как пользоваться и как получить доступ

Недавно китайская компания Kuaishou представила Kling 3.0 — новую версию видеогенератора, который берёт на себя роль режиссёра, а не просто генерирует клипы. В рамках одной сцены нейросеть способна задействовать до шести камер, менять углы съёмки и расставлять монтажные переходы — всё это без какого-либо участия человека.

Ключевым нововведением стала функция Multi-Shot — внутри компании её называют "AI-режиссёром". Работает это так: человек описывает сцену словами, после чего нейросеть берёт управление на себя — выбирает, в каком месте нужен дальний план, где уместнее портретный, и выстраивает кадры в цельную монтажную цепочку.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, канал с гайдами и советами по работе с нейросетями и про генерацию изображений - я стараюсь делиться только полезной информацией.

До появления этой функции каждый фрагмент приходилось генерировать отдельно, а затем вручную сводить всё воедино. Теперь за одну генерацию на выходе получается законченный пятнадцатисекундный ролик с несколькими сценами.

Как получить доступ: Kling 3.0, так же, как и другие популярные нейросети, уже доступен на веб-платформе и в телеграм-боте SYNTX.

Kling 3.0 доступен в трёх модификациях.

Первая — Video 3.0 — позволяет создавать ролики продолжительностью до пятнадцати секунд, что в полтора раза превышает возможности предыдущей версии.

Вторая — Video 3.0 Omni — параллельно формирует визуальный ряд и звуковую дорожку: речь персонажей, музыкальное оформление и шумовые эффекты встраиваются в видео на этапе генерации, а не монтируются отдельно.

Третья — Image 3.0 Omni — выдаёт статичные изображения с разрешением 4K и умеет работать пакетно, сохраняя единообразие стиля и внешности героев от кадра к кадру.

Отдельный приоритет для Kuaishou — стабильность внешнего вида персонажей: они должны оставаться узнаваемыми при любой смене ракурса, будь то переход от общего плана к крупному и обратно. Сами разработчики характеризуют это как "непревзойдённую согласованность во вселенной" — звучит как рекламный лозунг, но типичных для ранних ИИ-видео артефактов с деформированными лицами здесь и правда не видно. Помимо этого, расширена языковая поддержка озвучивания: помимо английского и китайского теперь доступны японский, корейский и испанский.

Kling бросает вызов Sora, Runway и Veo

С появлением Kling 3.0 модель сразу оказывается на одном уровне с ключевыми игроками рынка — Sora от OpenAI, Runway и Google Veo. Прежние поколения моделей text-to-video нередко выдавали визуально нестабильную, словно «сновиденческую» картинку, тогда как Kling 3.0 нацелен на результат, пригодный для использования в профессиональном продакшене. Добиться этого удалось за счёт цельной мультимодальной архитектуры: картинка, видеоряд и аудио больше не обрабатываются отджельно, а формируются в рамках единого процесса.

Единая мультимодальная система генерации

Фреймворк Multi-modal Visual Language (MVL) — фундамент, на котором построен Kling 3.0. Вместо объединения нескольких разрозненных моделей, каждая из которых отвечает за свою задачу — статичную картинку, анимацию или звук, — здесь все модальности обрабатываются внутри единого пространства. Главное практическое преимущество такого решения — стабильность результата. В классических ИИ-пайплайнах передача данных между отдельными моделями приводит к тому, что внешность персонажей «плывёт» от кадра к кадру. В Kling всё устроено иначе: изображение, сгенерированное в Image 3.0, выступает опорной точкой для дальнейшей видеогенерации — крупные признаки фиксируются и сохраняются на протяжении всей цепочки.

С архитектурной стороны в основе системы лежит Diffusion Transformer (DiT) — он позволяет нейросети одновременно отслеживать взаимосвязи между пикселями как в пространственном, так и во временном измерении. Благодаря этому удаётся существенно подавить мерцание, «кипение» текстур и прочие визуальные дефекты, хорошо знакомые всем по ранним генеративным видео.

Управление камерой, реалистичная физика и киношная картинка

Kling 3.0 умеет управлять виртуальной камерой почти как настоящий оператор. Он создаёт сложные движения: например, камера плавно приближается к объекту, и при этом фон смещается правильно (это называется параллакс). Ещё нейросеть умеет перемещать фокус с одного предмета на другой и снимать крупные планы мелких деталей.

Внутри Kling встроен физический движок — это программа, которая понимает, как предметы двигаются в реальной жизни. Поэтому персонажи не просто машут руками — видно, как они переносят вес тела. Автомобили и другой транспорт ведут себя естественно, а не парят в воздухе.

Что лучше: Kling, Sora или Veo 3

У каждой модели свои сильные стороны, поэтому какая лучше, вы сможете определить сами под свои задачи. Sora лучше подходит тем, кто хочет рассказать историю через текст — она понимает сложные сюжеты. Runway менее реалистично показывает движения людей и хуже следует текстовому промпту. Google Veo 3 точнее синхронизирует движения губ со звуком, но картинка получается менее киношной, а освещение — не такое выразительное.

Простыми словами: если вы сценарист — выбирайте Sora. Если вы художник, который видит образ и хочет оживить его — используйте Kling.

Встроенный звук и узнаваемые персонажи

Раньше приходилось отдельно создавать видео, потом добавлять звук и настраивать, чтобы губы двигались в такт речи. Kling 3.0 делает всё это сразу — Omni Native Audio создаёт звук одновременно с картинкой. Не нужно переключаться между разными программами.

Есть функция Voice Binding, с помощью которой вы можете привязать определённый голос к персонажу. Если в кадре несколько героев, нейросеть сама понимает, кто из них говорит, и создает соответствующие движения губами нужного персонажа. Работает на нескольких языках: английском, китайском, японском, корейском и испанском. Также создаются фоновые звуки, которые подходят к обстановке в видео.

Как сохранить согласованность персонажа видео в Kling

Для этого есть функция Elements. Вы загружаете фотографию или видео вашего персонажа, и нейросеть запоминает его отличительные черты: не только лицо, но и то, как он стоит, ходит, во что одет, каким голосом разговаривает.

Теперь можно снимать разные сцены с этим героем — он останется узнаваемым. Даже если в кадре несколько персонажей одновременно, они не перепутаются и каждый сохранит свою внешность.

Как получить доступ к Kling

Кроме официального сайта получить доступ к Kling можно на платформе SYNTX:

Kling 3.0: что нового, как пользоваться и как получить доступ

Для этого перейдите в раздел «Видео», затем выберите «Kling».

Также можно пользоваться Kling в Telegram-боте SYNTX. В боте после старта и выбора языка кликните в главном меню на пункт «📹 Видео Будущего», затем → «Kling».

Лично меня, как и многих из вас, впечатляют темпы развития генераторов видео. Если всего пару лет назад получить более-менее приличное по качеству видео было проблематично, то теперь отличные видео можно сгенерировать с первой или второй попытки. Думаю, что гонка среди разработчиков видеогенераторов еще не достигла даже пика.

19
1
3 комментария