Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Я не снимаюсь для Reels. Инст при этом этом продолжает жить. Ниже мой последний ролик — целиком создан нейросетями. Без камеры, без оператора, без монтажёра.

Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Не отличить от обычного Reels? В этом и фокус!

*видео обрезано для загрузки на платформу VC

Ниже — полный пайплайн: 4 инструмента, 3 промта, ссылки на всё. Повторите за один вечер — даже если никогда не работали с нейросетями.

Суть метода — в одной схеме

Прежде чем нырять в детали — вот как устроен весь процесс:

1) Ваше фото → NanoBanana (генерирует фотосессию)

2) Ваш текст и голос → ElevenLabs (клонирует голос)

3) Результат двух первых шагов → HeyGen (оживляет фото: губы двигаются, глаза моргают)

4) Финальное видео → Captions AI (субтитры, зум, монтаж)

Четыре шага. На каждом — одна нейросеть. На выходе — ролик, который выглядит как настоящая съёмка.

Шаг 1. Фотосессия без фотографа — NanoBanana

Задача: получить фотореалистичные изображения с вашим лицом в нужном ракурсе, стиле и освещении.

Почему не Midjourney? Для этой задачи NanoBanana лучше удерживает идентичность лица при работе с двумя референсами — ваше фото + стиль одежды. Midjourney часто «усредняет» лицо.

Как это работает?

Вы отправляете боту два фото:

  • Фото 1 — ваше лицо (identity)
  • Фото 2 — образ/стиль (одежда, аксессуары)

Плюс промт, который объясняет: «возьми лицо с первой фотки, стиль со второй, сгенерируй результат».

Ключевая строка, без которой ничего не работает — вставляю в каждый промт:

Use two reference photos: Reference 1 for face identity, body proportions, and hairstyle. Reference 2 for the full fashion styling (wardrobe, accessories, jewelry, colors, textures, fit) and apply it to the person from Reference 1.

Без неё NanoBanana смешивает лица и стили в непредсказуемую кашу. С ней — чёткое разделение: лицо ваше, стиль — с референса.

3 промта под разные ракурсы Reels

Я не писала промты вручную — попросила Claude сгенерировать 3 варианта под типичные ракурсы для Reels. Каждый оптимизирован под вертикальный формат 9:16.

Промт 1 — «Фронтальная камера, крупный план»

> Имитирует селфи с фронталки смартфона. Лицо занимает 65% кадра, тёплый рассеянный свет, мягкий размытый фон. Идеален для talking head Reels.

Что можно менять? Описание фона (сейчас — порог американского дома), направление света, выражение лица.

Photorealistic portrait of a young woman looking directly into the camera with a warm, approachable expression, mouth slightly parted as if mid-sentence, natural subtle smile. Shot as if captured by a smartphone front-facing camera: 26mm equivalent focal length, f/1.9 aperture, slight wide-angle barrel distortion, vertical 9:16 aspect ratio. Framing: tight close-up, face occupies 65% of the frame, slight headroom above, cropped at upper chest level, camera angle slightly above eye level. The woman's gaze is locked directly into the lens. Lighting: soft warm golden-hour sunlight from the left side with gentle fill light on the right, no harsh shadows on face, even skin illumination for optimal facial tracking. Background: cozy classic American suburban house exterior with white siding and a porch, rendered in smooth creamy bokeh, heavily blurred (shallow depth of field). Skin texture is natural and detailed, no airbrushing, natural minimal makeup. Color grading: warm tones, slightly lifted shadows, Instagram-lifestyle aesthetic. No hands visible in frame, no phone visible, no text, no watermarks, no accessories blocking the face.
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Промт 2 — «За столом, уровень глаз»

> Камера на уровне глаз, как будто телефон стоит на столе напротив. Оконный свет слева, минимальное присутствие стола в кадре. Подходит для «экспертных» Reels.

Что можно менять? Тип стола, освещение, наличие кофе/ноутбука в кадре.

Photorealistic portrait of a young woman sitting at a table, looking directly into the camera with a friendly engaged expression, mouth slightly open as if speaking mid-sentence, gentle natural smile. The table is barely visible — only a thin sliver of tabletop edge at the very bottom of the frame. Shot as if captured by a smartphone front-facing camera mounted or held at table level: 26mm equivalent focal length, f/1.9 aperture, subtle wide-angle perspective distortion, vertical 9:16 aspect ratio. Framing: close-up from chest level up, face occupies 60% of the frame, centered with slight rule-of-thirds offset, camera angle at eye level. Direct eye contact with the lens. Lighting: warm soft natural window light from the front-left, gentle ambient fill, no hard shadows across the face, both eyes evenly lit for facial recognition compatibility. Background: interior view through a window showing a cozy classic American house with warm-toned siding, green lawn, rendered in soft pleasant bokeh. Skin is naturally textured, realistic pores, light natural makeup. Color palette: warm honey tones, soft contrast, modern lifestyle vlog aesthetic. No hands in frame, no phone visible, no text overlays, no watermarks, nothing obscuring the face or jawline.
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Промт 3 — «Крыльцо, золотой час»

> Мягкий закатный свет, уверенный расслабленный взгляд в камеру, уютная атмосфера. Для lifestyle-контента.

Что можно менять? Локация (крыльцо / балкон / парк), время суток.

Photorealistic portrait of a young woman sitting on a chair on an outdoor porch, looking straight into the camera with a confident yet approachable expression, mouth slightly parted as if mid-conversation, subtle warm smile. The chair is barely visible — only a faint hint of chair back behind her shoulders. Shot as if captured by a smartphone front-facing camera: 26mm equivalent focal length, f/1.9 aperture, minimal wide-angle distortion, vertical 9:16 aspect ratio. Framing: close-up head and shoulders, face occupies 65% of the frame, comfortable headroom, cropped mid-chest, camera positioned at eye level or just slightly above. Direct confident eye contact with the lens. Lighting: golden hour warm sunlight as key light from the right, soft natural bounce fill from the left, creating gentle dimensional modeling on the face without harsh shadows, both sides of the face well-illuminated. Background: classic American cozy home porch setting with white wooden railings, potted plants, warm ambient details — all rendered in smooth creamy bokeh with shallow depth of field. Natural skin texture, visible but flattering, dewy minimal makeup look. Color grading: warm sunset tones, soft lifted blacks, cozy inviting Instagram Reels aesthetic. No hands visible, no phone in frame, no text, no watermarks, face and jawline fully unobstructed, hair not covering more than 15% of the face.
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Шаг 2. Клонируем голос — ElevenLabs

Задача: создать цифровую копию вашего голоса, которая будет озвучивать Reels.

ElevenLabs — сервис синтеза речи. Есть бесплатные стартовые токены.

Как клонировать голос?

- Зарегистрируйтесь, перейдите в раздел Voice Cloning.

- Загрузите запись вашего голоса (30–60 секунд, чистая речь, без шумов). ElevenLabs создаст клон за ~2 минуты.

- Теперь вводите любой текст — сервис озвучит его вашим голосом!

Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Важный нюанс: на английском ElevenLabs звучит почти неотличимо от оригинала. На русском — заметен лёгкий «цифровой» привкус. Для Reels в ленте, где звук идёт через динамик телефона — разница незаметна. Для подкаста — будет слышно.

Шаг 3. Оживляем аватар — HeyGen

Задача: объединить фото из шага 1 и аудио из шага 2 в видео, где аватар говорит вашим голосом.

HeyGen — сервис для анимации лица. Я пользуюсь этим инструментом в агрегаторе.

Что происходит под капотом?

HeyGen берёт статичное фото и «оживляет» его:

- Губы двигаются синхронно с аудиодорожкой

- Глаза моргают с естественной частотой

- Голова слегка покачивается — микродвижения добавляют реализм

Загружаете видео из первого шага (рекомендую промт 1 — фронтальный ракурс даёт лучший результат) и аудио-дорожку из второго шага!

Результат генерации:

*видео обрезано для загрузки на платформу VC

Синхронизация губ: 8/10 — при быстром просмотре в ленте не отличить

Моргание: 7/10— естественно, но чуть реже, чем у живого человека

Мимика: 6/10— лоб и щёки почти не двигаются

В ленте выглядит, как реальная съёмка. При замедленном разборе — видна статичность шеи и плеч.

Это уже рабочий Reels. Но без монтажа, субтитров и эффектов он выглядит сыро. Поэтому — нам нужен ещё 1 шаг!

ОЦЕНКА РЕЗУЛЬТАТА

Шаг 4. Автомонтаж за 1 минуту — Captions AI

Задача: превратить «сырое» видео в готовый Reels с субтитрами, зум-эффектами и переходами.

Я тестировала два инструмента:

Submagic (только платная версия)

- Субтитры : 10/10

- Стили монтажа: 7/10 (базовые)

- Зум-переходы: 6/10 (базовые)

Caption AI (есть бесплатные попытки)

- Субтитры : 10/10

- Стили монтажа: 9/10 (много нестандартных шаблонов)

- Зум-переходы: 8/10 (больше шаблонов)

Процесс

  1. Загрузите видео из шага 3
  2. Выберите стиль или загрузите референс
  3. Дождитесь обработки (~60 секунд)
  4. Скачайте готовый Reels
Мой ИИ-двойник снимает Reels вместо меня. 4 нейросети, 20 минут, ноль съёмок — показываю пайплайн

Финальный результат (в начале статьи) собран без камеры, без студии, без ручного монтажа. 4 нейросети, 20 минут!

Благодарю за уделённое время, дорогой читатель! Если ты ещё не подписан на мой ТГ-канал, то самое время это сделать LEYA | AI-GUIDE

32
7
4
1
55 комментариев