Seedance 2.0: Опыт рефлексирующего аналитика

Прилагательные в промпте — это балласт. Слова вроде aesthetic, graceful, cinematic почти всегда дают один и тот же эффект: сцена теряет логику, картинка остаётся аккуратной, но фейлы вылезают в каждом кадре.

Seedance 2.0 даёт предсказуемый результат не тогда, когда промт «красивый», а когда сцена технически собрана: заданы ограничения, есть понятное действие, зафиксирован свет и прописана логика камеры. «Физика» здесь — это не абстракция, а конкретное поведение и движение, заданные явно. Чем меньше двусмысленности в сцене, тем стабильнее результат. В этот момент промт — уже не текст, а техническая спецификация.

Разделяйте и властвуй

Одна из базовых причин, почему сцена теряет управляемость — смешивание ролей. Когда один референс одновременно отвечает за визуальную идентичность, среду и динамику, модель перестаёт разделять, где заканчивается объект и начинается пространство. В результате плывут признаки, ломается геометрия, а движение вступает в конфликт с композицией. Рабочий принцип простой: один референс — одна функция. Чем сегментированнее зона ответственности, тем стабильнее результат.

Распределение ролей:

  • изображения (@Image) фиксируют статику — идентичность персонажа (лицо, пропорции, детали), структуру среды и расположение объектов в сцене;
  • видео (@Video) задаёт поведение — движение объектов и персонажа, работу камеры, ритм, монтаж и визуальные эффекты, которые могут воспроизводиться автоматически.

Если одной роли становится недостаточно, её не расширяют, а разделяют на несколько независимых референсов.

Важно про видео-референсы: они передают не только движение, но и характер сцены — камеру, монтаж и эффекты. Эти эффекты могут воспроизводиться автоматически, даже если вы их не закладывали, поэтому их либо используют осознанно, либо ограничивают.

Та же логика работает и на уровне кадра (shot). Если в одном кадре одновременно заданы несколько равнозначных задач — персонаж, среда, движение и вторичные элементы — модель теряет приоритеты, и сцена становится нестабильной. На практике кадр держится на одном основном фокусе и понятной последовательности действий. В каждый момент есть главный акцент — движение, свет, объект или пространство — а всё остальное подчинено ему. Если внутри кадра возникает конкуренция за внимание, сцена начинает «ехать»: движения теряются, акценты смещаются, поведение становится непредсказуемым.

Чем яснее фокус и последовательность, тем устойчивее собирается сцена.

Свет, физика, но ещё не мотор

Если в промпте не заданы параметры среды, модель начинает достраивать их сама. В этот момент сцена теряет стабильность: меняется освещение, расстояние между объектами прыгает, а перспектива ломается.

Свет как инструмент фиксации формы

В Seedance 2.0 свет — это не «атмосфера», а способ сделать объекты различимыми: он отделяет персонажа от фона и удерживает объём. Если параметры света не заданы явно, модель будет пересобирать освещение в каждом кадре. Что фиксируем:

  • single warm key light from frame-left, hard shadows — задаёт объём и чёткие границы;
  • two light sources: cold top light + warm backlight — отделяет объект от фона;
  • high contrast lighting, deep shadows — делает форму читаемой, убирает «плоскость»;
  • stable lighting, no light source drift — сохраняет свет стабильным между кадрами.

Физика

Физика в промте — это не реализм, а предсказуемость поведения. Если поведение материалов не описано, модель начинает интерпретировать его сама, и сцена становится нестабильной.

Отдельно это критично для сложных взаимодействий — например, сцен с драками или активным контактом. В таких сценах действие нужно задавать последовательно: движение → точка контакта → реакция. Если этого нет, модель теряет структуру: движения становятся «смазанными», тела деформируются, контакт не считывается.

Параметры контроля:

  • Материалы: fabric reacts naturally to movement, no stiffness — ткань двигается вместе с телом, не «ломается» и не замирает;
  • Анатомия: hair follows head motion, no independent floating — волосы двигаются вместе с головой, не «висят» и не живут отдельно;
  • Статика среды: fixed room layout, no object displacement — объекты остаются на месте и не «переезжают»;
  • Отражения: reflections stable, no distortion — отражения не «плывут» при движении;
  • Контакт: distinct limb separation, no limb merging during contact — части тела не «слипаются»;
  • Точки контакта: fixed contact points, visible physical impact — взаимодействие происходит в конкретной точке;
  • Инерция: weight transfer visible, realistic body tension — видно перенос веса и напряжение;
  • Реакция материалов: clothing compression at contact points, no texture bleeding — ткань сжимается в точке давления, не «протекает».

Камера: управление вниманием

Камера должна задаваться через конкретные параметры: ракурс, дистанцию и движение. Общие слова вроде cinematic не задают поведение камеры. Пресеты для управления фокусом:

  • low angle, medium shot, slow push-in — делает персонажа доминирующим и удерживает внимание на нём;
  • close-up, eye-level, static camera — фиксирует состояние;
  • wide shot, static camera — показывает пространство;
  • handheld, slight shake, fast push-in — создаёт напряжение;
  • smooth orbit around subject — показывает форму объекта.

Важно: параметры камеры должны быть согласованы. Если ракурс, дистанция и движение противоречат друг другу, модель начинает «прыгать» между состояниями, пытаясь угодить всем командам сразу.

Я против безопасного промта

Промпты, прогнанные через ChatGPT и аналоги, теряют точность исполнения. Происходит деградация промта: конкретные действия заменяются безопасными формулировками. Вместо «ударил» появляется «коснулся», вместо «врезал» — «взаимодействует». В этот момент действие перестаёт считываться. Модель исполняет текст буквально. Если в формулировке нет амплитуды, импульса и кинетики, она их не добавит: движение становится вялым, контакт — неубедительным, сцена теряет структуру.

На практике это не переписывание «с нуля», а итеративный процесс: прогнал — вычитал — усилил вручную. Ты читаешь результат, видишь «вату» вместо действия и возвращаешь в текст конкретику.

Главный вопрос: откуда брать формулировки, которые заставят Seedance 2.0 выдать динамику?

Рабочие формулировки не экстрагируют из пустоты — их собирают из источников с готовой физикой: референс-видео, раскадровок экшен-сцен и описаний реального движения.

Усатые лайфхаки

1. Привязка идентичности

Проблема: уникальные признаки персонажа не удерживаются и меняются от кадра к кадру.

Решение: фиксировать их в каждом промте как константы (heterochromia, freckles, scars).

2. Инородные объекты как автономия

Проблема: маски, крылья и аксессуары «сливаются» с телом и деформируются.

Решение: задавать их как отдельные объекты с запретом на слияние и трансформации (mask as separate object, no fusion with skin; wings attached to back, no transformation).

3. Обход ограничений через storyboard

Проблема: при ограничениях платформы на количество референсов с лицом сцена не проходит.

Решение: разбивать на storyboard (4–6 кадров) и передавать идентичность через несколько сцен.

4. Потеря деталей на дальних планах

Проблема: на wide shot лицо и мелкие текстуры превращаются в «мыло».

Решение: генерировать такие элементы отдельно и интегрировать, а не пытаться дожать один промт.

5. Контроль текстуры кожи

Проблема: модель сглаживает лицо и убирает микродетали.

Решение: добавлять skin pores, subtle imperfections, raw photo texture.

Контроль материалов Проблема: материалы смешиваются в одно пятно. Решение: задавать их явно (layered silk, leather straps).

Контроль глаз Проблема: цвет и детализация «съедаются» светом. Решение: фиксировать блик (specular highlight in both eyes).

Примеры промтов

1. Падение_в_пустыне_трансформация_металл

Промт перегружен действиями — при переиспользовании упрощайте сцену и убирайте конфликтующие движения.

[Video Settings] Ultra-realistic dark fantasy cinematic film, native vertical 16:9 composition designed specifically for mobile viewing, not cropped from widescreen. Premium feature-film look, captured as if shot on ARRI Alexa 65 large-format digital cinema camera, 24fps, 180-degree shutter, natural motion blur, high dynamic range, sharp micro-details, realistic skin texture with visible pores, natural hair strands, physically accurate cloth simulation, realistic gravity, realistic dust and sand interaction, realistic metallic reflections, no CGI plastic look, no game-render look. [Vertical 16:9 Composition] Strong vertical framing. Keep the heroine as the dominant central subject. Prioritize height, depth, and top-to-bottom motion over wide horizontal staging. Important visual elements must stay inside the central 60–70% of the frame. Use layered vertical depth: sky above, falling body in center, desert and impact zone below. Preserve readable headroom and full-body silhouette whenever possible. Keep sand, metal fragments, and shockwaves moving vertically or diagonally upward through the frame. Avoid empty side space, overly wide compositions, or action drifting too far left or right. [Camera Language] Bold cinematic camera language designed for vertical 16:9: extreme close-up opening, violent pull-back, aerial dive from above, aggressive push-in, fast tilt correction, controlled vertical half-orbit, low-angle recovery, sharp ground-level perspective, readable subject lock. Movements must feel expensive, daring, and physically possible, never chaotic. [Character] A young Slavic-looking woman, blonde hair, brown eyes, pale natural skin, sharp Slavic facial structure, high cheekbones, straight nose, soft but strong face, no modern makeup, no glam styling, no exaggerated fantasy anatomy. She wears a simple light sand-colored ancient dress made of weathered natural fabric. She must remain the same woman throughout the entire sequence. [Location] An endless desert at sunset, windswept dunes, buried ruins of an ancient iron civilization, broken pillars, half-buried weapons and chains under the sand, distant storm wall, heat haze near the ground, glowing horizon, dry wind carrying fine dust across the frame. [Lighting] Low sunset backlight, copper-gold edge light, soft shadow fill from the sand, realistic atmospheric haze, dust catching sunlight, subtle specular highlights on skin and metal, no overexposed fantasy glow. [Scene] 0–2s: Hook. Extreme close-up of one brown eye in free fall, wind tearing strands of blonde hair across her face. Reflected inside her pupil: the desert rushing up toward her. The camera violently pulls back from the eye into a high-speed aerial fall, instantly revealing scale, height, and danger. 3–5s: Wide aerial dive. The woman is falling from a great height toward the desert. Her body rotates slightly in real gravity, then begins to stabilize as if some hidden force is awakening inside her. Her dress snaps hard in the wind, hair lashes across her shoulders, breathing visible in her chest and throat. The fall must feel heavy, dangerous, and physical. 6–8s: Medium close-up while falling. Fear transforms into focused defiance. Fine glowing metallic veins appear beneath the skin of her neck, collarbones, and arms like molten steel under translucent skin. Tiny iron particles begin orbiting around her. The camera performs a bold descending vertical half-orbit around her body, then catches her face from below. 9–11s: Transformation peak. Buried metal responds to her presence before impact: steel dust, iron fragments, broken blades, chains, and glowing molten particles rise from the desert below and shoot upward toward her. In mid-air they forge themselves onto her body as elegant divine metal armor on her shoulders, forearms, chest, and waist. The armor must feel forged, layered, hammered, weighty, and ancient, never decorative cosplay. 12–15s: Impact and reveal. The camera rushes down with her, then sharply tilts up from ground level as she crashes into the sand on one knee. A violent circular shockwave of sand erupts outward. The buried ground beneath her glows like a hidden forge. Broken weapons tremble and lift from the dunes around her. She slowly raises her head. End on a powerful low-angle hero frame as dark enemy silhouettes emerge through the dust storm in the far distance. [Audio] No music in the opening beat. Only wind roar, cloth snapping, rushing air, body weight in free fall. As the metal awakens, introduce deep forge resonance, distant iron hammer echoes, low molten hum, and subtle metallic ringing. On impact: heavy sand blast, deep iron shockwave, debris rattle. [Constraints] Stable face, same character throughout, natural body proportions, natural female anatomy, no stiffness, no extra limbs, no deformed hands, no flickering armor, no random face changes, no blur, no ghosting, no cartoon look, no glossy fake VFX glow.

2. Дуэль_на_берегу_два_существа

Промт перегружен действиями и камерой — при переиспользовании упрощайте шоты и убирайте конкурирующие движения.

@Image1 as the exact appearance reference for the dark creature. @Image2 as the exact appearance reference for the pale lightning creature. Use both as strict references. Do not blend them. CRITICAL LOCK: @Image1 = dark liquid-glass body, internal blue veins under surface, heterochromia (left icy blue, right muted amber). @Image2 = pale moonlit cat, pearlescent body, fine scales, lightning user, no internal veins. FORMAT: 16:9, 15 seconds, ultra-realistic Hollywood Pokémon-style duel, night beach, wet pink sand, shallow surf, black rocks, strong spray, cold moonlight, no text, no music. STYLE: high-intensity physical fight with real contact + cinematic micro shots. fast rhythm, sharp cuts, no calm intro. bites, claws, body collisions, electricity interacting with water and sand. no fantasy beams, only physical lightning arcs and pressure effects. CAMERA: dynamic multi-shot sequence, not one take. mix of low tracking, whip pans, macro inserts, slow-motion micro beats, and hard push-ins. lens feel: 28–35mm action, 50mm clash, 85mm micro close-ups. shot 1 (0–2s) (impact start): extreme low-angle macro: @Image1 claws press into wet sand — sand compresses, water seeps. CUT — @Image2 paw hits water → lightning jumps across surface in branching arcs. WIDE — @Image2 lunges fast from surf. WHIP PAN — @Image1 slips under attack. shot 2 (2–5s) (first exchange): SIDE TRACK: @Image1 body-checks → @Image2 slides sideways in shallow water. MICRO SHOT: teeth snap past fur — near miss. INSERT: @Image2 claw hits @Image1 shoulder → surface ripples like stressed glass, veins flash. INSERT SLOW-MO: spray droplets suspended mid-air with lightning flicker inside them. shot 3 (5–8s)(speed + acrobatics): CHASE SPLIT: @Image1 runs on sand, @Image2 glides in water. LOW MACRO: @Image2 paws tap water → tiny electric bursts explode under each step. MID SHOT: @Image2 leaps from rock → aerial twist. @Image1 responds: shoulder drop → roll → tail whips sand. MICRO: tail cuts through spray like a blade. shot 4 (8–11s) (grapple + pain): CLOSE CLASH: @Image2 lands on @Image1 side → claws dig in (no gore). INSERT: liquid-glass surface dents and rebounds. ELECTRIC CONTACT: short arc runs across @Image1 body → dives into sand. @Image1 rolls violently → throws opponent off. MICRO CLOSE-UP: eyes — icy blue + amber → focus sharpens. VEINS: begin to organize and brighten (Vein Bloom). shot 5 (11–13s) (power ignition): HARD PUSH-IN: @Image1 chest + ribs + throat. veins ignite under surface → electric-blue network spreading. SOUND DROPS. CUT: @Image2 gathers lightning — arcs crawling along limbs, water boiling in small splashes. shot 6 (13–15s) (final collision): BOTH LAUNCH simultaneously. SLOW-MO MICRO: claws, teeth, spray, lightning arcs crossing frame. IMPACT: @Image1 releases Overload Pulse + @Image2 discharges into water. RESULT: foam explodes sideways, spray erupts upward, wet sand shivers, electricity forks through water. FINAL SHOT: @Image1 lands near camera, claws digging deep. low dominant stance. micro: breath, wet surface, veins still glowing. eyes locked: left icy blue, right amber. @Image2 in background water, low stance, faint residual sparks. CONSTRAINTS: no gore, no anime beams, no external glow paint, no anatomy drift, no face distortion, no blur-smear, no flicker. keep all motion physically believable.

3. Волк_в_тени_комната_v1

Сцена построена на проявлении существа через среду комнаты

@Image1 — environment reference: use for the entire scene (room layout, composition, lighting structure, spatial depth, moonlight behavior, dust behavior). @Image2 — character reference (strict): use for the winged wolf. Preserve exact anatomy: massive wolf body, enlarged heavy forelimbs, dense dark fur with gray/silver aging, integrated large bird wings with irregular white feather accents, scars and natural imperfections. No redesign, no stylization. Critical identity constraints (immutable): The creature is strictly a wolf. No hybrid reinterpretation, no creature redesign. Wings must remain anatomically integrated, heavy, realistic, not decorative. Eyes — strict heterochromia (must never change): Left eye: cold muted gray-green (no yellow). Right eye: warm amber-brown. No symmetry, no color averaging, no duplication. If correct eye rendering is not possible — do not show eyes. Format: 16:9, duration 15s. Style: ultra-realistic cinematic dark realism (NOT fantasy look), documentary-level physical plausibility, natural lighting, deep shadow structure, volumetric dust, 4K, sharp detail. Scene: a large Victorian bedroom at night. Wide, mostly empty space. Bed off-center with dark blue bedding absorbing light, red blanket at the edge. A chair deep in the room. Heavy black curtains almost fully block the window, leaving a narrow vertical slit with a full moon. A thin cold moonlight beam cuts through darkness without lighting the room, only revealing depth. Most of the room remains in deep shadow. Environment strictly follows @Image1. Camera (constant): wide shot, side angle, eye-level, locked-off. Deep depth of field, fixed focus. No pan, tilt, zoom, orbit, handheld. Only minimal micro-breathing. Frame unchanged. Shot 1 (0–4s): camera static, composition from @Image1 unchanged. Moonlight beam stable, dust moves uniformly. At ~2s, a small cluster of particles deviates. At ~3s, subtle density flicker at the beam edge. In the far corner, darkness begins to condense. Shot 2 (4–8s): camera unchanged. Beam becomes slightly uneven. Dust moves at different speeds. The far corner deepens, shadow boundary thickens, suggesting hidden volume. Shot 3 (8–11s): camera locked. Inside the dark corner, dust begins to behave inconsistently — particles bend and flow around a large unseen mass. Through this interaction, part of the wolf from @Image2 is revealed: Either the edge of a massive forelimb: wide, extremely heavy, thick toes, long claws, clear weight impression. Or a portion of a folded wing: dense feather layers, irregular edges, occasional white feathers visible, slow controlled micro-movement. Important: the form is perceived through interaction with dust, not direct visibility. It never fully enters the light. Shot 4 (11–13s): camera unchanged. Micro-event peak: dust inside the moonlight beam slightly slows, almost suspends. The edge of the beam subtly “breaks” against the form inside darkness, as if encountering a physical surface. A presence of gaze becomes perceptible. If eyes are partially visible — strictly maintain heterochromia from @Image2 , no glow, no exaggeration. Shot 5 (13–15s): camera fixed. Beam stabilizes. Dust returns to motion — slightly too uniform. The room appears normal again. However, the far corner remains subtly denser and spatially deeper than physically possible. Camera does not emphasize it. Behavior: the wolf from @Image2 does not enter — it is already present. Movements are minimal, slow, extremely heavy. Presence is revealed through environmental interaction, not direct action. Constraints (critical): Strict adherence to @Image2 anatomy (wolf + wings + proportions). No new elements, no redesign, no fantasy stylization. No deformation, no morphing, no anatomy drift. No symmetry in eyes. Prefer occlusion over incorrect rendering. No full creature reveal, no full silhouette, no full face. No glowing eyes, no magical effects, no smoke entities. No camera movement.
Начать дискуссию