HappyHorse 1.0: официальный гайд по промптингу — формула Scene + Subject + Motion + Audio

Полный перевод официального гайда HappyHorse 1.0 от Alibaba ATH team: 4 режима генерации (T2V, First-Frame I2V, Reference, Video Editing), формула промпта, 15+ verbatim примеров, технические лимиты. Доступна в CoreMind.

Иллюстрация HappyHorse 1.0: кинематографический силуэт лошади из плёнки и звуковых волн

🐎 HappyHorse 1.0: официальный гайд по промптингу

В апреле 2026 команда Alibaba ATH выпустила HappyHorse 1.0 — генеративную видео-модель с native multimodal architecture, где видео и звук создаются одним проходом. Модель закрывает четыре режима генерации (T2V, First-Frame I2V, Multi-Image Reference и Video Editing) и доступна в CoreMind на вкладке «Видео» → бренд HappyHorse → версия 1.0. Эта статья — построчная адаптация официального Creative Guide на русский с сохранением всех verbatim-промптов, чтобы вы могли копировать и пользоваться.

Что умеет HappyHorse 1.0

Согласно официальному описанию ATH-team, HappyHorse 1.0 ориентирован на четыре сценария: реклама, e-commerce, шорт-форма (short-form drama) и социальный креатив. В отрасли модель выделяется:

  • Кинематографичным качеством и светом — кожа, волосы, металлические отражения, дым, туман.
  • Плавным движением камеры — zoom in/out, depth-of-field shifts, переходы с консистентным цветокором.
  • Реалистичными лицами с эмоциями — пропорции и контуры лица без характерного «AI-look».
  • Сильной близкой кадровкой — narrative-режим в medium и close-up планах.
  • Гибким V2V — редактирование существующих видео без полной перегенерации.

Четыре режима генерации

Что вы хотите сделать Режим
Просто идея, без картинок Video Generation: Text-to-Video (T2V)
Анимировать готовую картинку Video Generation: First-Frame Mode (F-I2V)
Скомбинировать несколько картинок в новое видео Video Generation: Reference Mode (R2V)
Изменить готовое видео Video Editing (V2V)

First-Frame vs Reference — ключевое отличие

Самая распространённая путаница — между F-I2V и R2V. В одном случае картинка становится первым кадром видео, в другом — только источником визуальных признаков.

First-Frame Image-to-Video Multi-Image Reference to Video
Роль изображения Image = первый кадр видео, точно воспроизводится Image = визуальный референс; черты извлекаются и интегрируются в видео
Количество 1 1–9
Точность воспроизведения Очень высокая — первый кадр практически идентичен оригиналу Средняя — модель ссылается на изображения, но не воспроизводит попиксельно
Aspect ratio Наследует исходное изображение Свободно выбирается (16:9, 9:16, 4:3, 3:4, 1:1)
Разрешение 720P / 1080P 720P / 1080P
Промпт Опционально (но рекомендуется) Обязателен
Типичное использование «Bring this image to life» «Create a new video based on these materials»

Один и тот же набор картинок в этих режимах даст совершенно разный результат. F-I2V — «играть от этого кадра», R2V — «использовать эти кадры как ориентир».

Формула промпта (официальная)

Prompt = Scene + Subject + Motion + Audio

Четыре слота. Чем точнее каждый — тем выше качество.

  • Scene — окружение, в котором живёт субъект: задний/передний план, реальное или вымышленное пространство.
  • Subject — главный фокус видео: человек, животное, растение, предмет, или вымышленная сущность.
  • Motion — движения субъекта плюс динамика остального кадра: статика, мелкое движение, крупная амплитуда, локальное движение или общий импульс.
  • Audio — голос + ambient + SFX. У HappyHorse есть нативный AI-voiceover и интегрированные sound effects, поэтому описывайте звук явно.

Эталон от Alibaba — T2V «Private Jet Cabin»

[Scene] Inside a luxurious private jet cabin. Outside the window, a
magnificent golden-red sea of clouds at sunset. Sunlight bathes the cabin
in an amber glow. [Subject] On the left, a silver-haired older man in a
haute couture suit, holding a whisky glass, his gaze sharp as a hawk's.
On the right, a younger man leaning slightly forward, brow furrowed, his
expression a mix of tension and ambition. [Motion] The older man gently
swirls the whisky in his glass, the liquid coating the sides, as he leans
his body toward the other man. The younger man takes a deep breath and
meets his gaze with unwavering resolve. The camera pushes slowly to the
side, zeroing in on the taut tension between them. [Audio] [Older man,
voice low and gravelly, commanding authority]: "In this world, you either
hunt or you become the prey. Which one are you?" [Younger man, voice
tight but resolute]: "I am the one who pulls the trigger." The background
is accompanied by the deep rumble of the jet engines and the crisp clink
of ice striking the glass.

Обратите внимание на маркеры [Scene], [Subject], [Motion], [Audio] — это рабочая привычка, которая помогает модели надёжнее распознавать слоты.

Пять преимуществ HappyHorse — с verbatim промптами

2.1 Кинематографичное качество и свет

Кожа, волосы, металлические отражения, дым, туман — модель особенно сильна в фотореалистичных текстурах.

A cinematic script scene set in a sun-drenched Parisian café, golden
afternoon light spilling through arched windows. A sharp-dressed man in
a tailored navy suit sits across from an elegant woman in a flowing
crimson dress, half-empty coffee cups between them. The air is thick
with unspoken tension. He leans forward, voice low and steady: "You knew
from the beginning, didn't you? That none of this was real." She holds
his gaze without flinching, a ghost of a smile on her lips, slowly
stirring her coffee: "Everything was real. That's exactly what makes it
so dangerous." Cinematic wide-angle composition, warm golden hour
lighting, shallow depth of field, film grain texture, muted vintage color
palette with deep crimson accents, highly detailed wardrobe and facial
expressions, noir romantic aesthetic, emotionally charged atmosphere,
European street photography style, dramatic storytelling, 35mm film look.

2.2 Плавное движение камеры и переходы

Поддержка zoom in/out, depth-of-field shifts, бесшовных стыков с единым цветокором.

New York Cityscape · Surrealist FPV One-Take Camera Script. The camera
launches from an ultra-low angle against the ground, hurtling at
breakneck speed just above the pavement along the empty Manhattan streets
at dawn. Brownstones and red-brick buildings on either side dissolve into
streaks of flowing color. Cracks in the asphalt refract the morning
light, while cast-iron railings and street fire hydrants flash past as
blurred afterimages. The camera maintains a height of 30 centimeters off
the ground, sprinting at several meters per second with a subtle lateral
sway mimicking the breathing rhythm of a handheld shot. Morning light
filtering through gaps in the sycamore canopy sweeps continuous lens
flares across vintage metal address plates. […] At the midpoint of the
descent, light diminishes sharply. The four walls of the light well —
modern glass curtain wall on one side, Brooklyn red brick on the other —
blur into a swirling vortex of red and silver. […] Speed drops to less
than one centimeter per second, fading to pure white in absolute
stillness.

(Полный текст FPV-промпта в гайде — около 800 слов; здесь сокращено для читаемости. Главное — пошаговый сценарий движения камеры, как сценарий для real-life оператора.)

2.3 Реалистичные лица с эмоциями

[Scene] An interrogation room under cold white lighting. The metal
tabletop gleams with reflections. A cigarette still smolders in the
ashtray. [Subject] On the left, a veteran detective — suit wrinkled,
heavy bags under his eyes, fingers slowly tapping the table. On the
right, a suspect — arms crossed, gaze shifting, a barely perceptible
hint of contempt at the corner of his mouth. [Motion] The veteran
detective slowly slides a photograph across the table. The suspect's
gaze falters for a split second before quickly darting away. The camera
pushes forward at a low angle, capturing the subtle standoff between
their hands and expressions. [Audio] [Veteran detective, speaking
extremely slowly, each word landing like a nail]: "Do you have any idea
how many years I've been doing this." [A brief silence. Thin wisps of
smoke drift up from the ashtray.] [Suspect, airy tone, deliberately
nonchalant]: "What's that got to do with me." [Veteran detective,
without looking up, the corner of his mouth barely twitching]:
"Everything. Because I've never lost."

2.4 Сильная medium- и close-up narrative-кадровка

On a mountain forest trail at dawn, the camera slowly pushes forward.
A pair of shoes treads on slightly damp earth and fallen leaves,
producing soft, crisp rustling sounds. The surroundings are filled only
with the gentle susurration of wind through the leaves, punctuated by
occasional clear birdsong, while the faint murmur of a stream can be
heard in the distance. The entire sequence emphasizes the quietude,
moisture, and natural reverberance of the mountain forest, with rich
and authentic ambient sound.

И ещё один — официальный пример мультиязычного диалога:

Please generate a Shaw Brothers-style comedy film clip in which a Western
man speaks Chinese and a Chinese man speaks English.

2.5 Гибкое V2V (Video-to-Video editing)

Replace the environment background in the video from desert to a vast,
azure ocean with gentle waves on the surface and silhouettes of tropical
islands in the distance. The sky is bright and clear, with sunlight
casting across the sandy beach. The explorer maintains the original
hiking posture and gear, walking on pristine white sand. Adjust the
lighting and color tone to a fresh coastal style with bright, vivid
illumination.

First-Frame I2V — рецепты

Когда использовать:

  • У вас есть готовая иллюстрация / AI-картинка / mockup, которую хочется оживить.
  • Нужен точный контроль над открывающим кадром (композиция, поза, цветовая температура).
  • Нужно превратить статичные продуктовые фото в динамичные видео-ассеты.

Ключевые подсказки от Alibaba:

  • Качество первого кадра задаёт потолок — чем чище и чётче кадр, тем лучше результат.
  • Промпт опционален, но настойчиво рекомендуется. Опишите желаемое действие и движение камеры (например, «character slowly turns around, camera zooms in») — иначе модель додумает движение сама.
  • Aspect ratio выходного видео наследуется от первого кадра. Кропайте картинку под нужный формат заранее.

Verbatim промпты:

The girl in the frame slowly turns her head and smiles, a gentle breeze
lifting strands of her hair, camera remains static, cinematic quality,
natural lighting.
The monkey resumes typing away at the keyboard, and the camera pulls back.

Multi-Image Reference — 4 рабочих паттерна

Это самый мощный режим — модель извлекает черты субъекта, стиль, сцену из 1-9 картинок и собирает в новое видео. Подсчитано четыре устойчивых паттерна.

Паттерн 1. Single Subject + Multiple Angles

Загружайте multi-angle фото одного и того же персонажа/продукта — модель полнее понимает внешний вид субъекта.

Загрузка: 3 фото — фронт, профиль, full body.

A short-haired woman wearing a red coat walks through the rainy streets
of Tokyo, holding a transparent umbrella, neon lights reflected on the
wet pavement, camera slowly moves from front to side in a tracking shot,
cinematic look.

Паттерн 2. Subject + Scene Separation

Одни картинки дают появление персонажа/продукта, другие — целевую сцену или фон.

Загрузка: Image 1-2 — продукт (например, кроссовки), Image 3 — сцена (закат в пустыне).

A pair of white sneakers tumbles down from the top of a sand dune, sand
particles spraying, golden sunset in the background, camera follows the
trajectory of the shoes, slow motion, commercial quality.

Паттерн 3. Multi-Subject Interaction

Референсы для разных персонажей/объектов плюс описание их взаимодействия.

Загрузка: Image 1 — рыжий полосатый кот, Image 2 — чёрный лабрадор.

An orange tabby cat and a black Labrador chase and play on a grassy lawn,
the tabby jumps onto the Labrador's back, bright sunshine, green lawn,
medium shot, natural candid style.

Паттерн 4. Narrative Storyboard / Storyline

Загружайте сториборд-кадры в порядке нужного развития истории — модель строит видео по последовательности.

Загрузка: Image 1 — крупный план кофейных зёрен, Image 2 — pour-over, Image 3 — готовый latte с art.

Generate a video showing the journey from beans to a finished latte. The
camera transitions through coffee beans being ground (Image 1), the
pour-over process with hot water spiralling onto the grounds (Image 2),
and ends with the finished latte art (Image 3). Warm tones, alternating
between macro and medium shots, ASMR atmosphere.

И ещё четыре официальных шаблона из 4.3:

Using the character from "Image 1," she walks into the scene from
"Image 2," pushes open the door, then turns back with a smile. The
camera follows her movement, cinematic quality.
Extract the cat's features from "Image 1" and "Image 2," and generate a
scene of it dozing off on a windowsill before being startled awake.
Maintain consistent fur color and markings.
Combining the front-facing photo from "Image 1" and the side profile from
"Image 2," generate a dynamic shot of the character turning around and
glancing back over the shoulder. Maintain consistent facial features and
hairstyle.
Use "Image 1" as the visual style reference. The person from "Image 2"
strolls beneath cherry blossom trees, and the logo from "Image 3"
appears at the end. Maintain a unified color palette throughout.

Tips для Multi-Image Reference (4.3):

  • Aspect ratios всех картинок старайтесь держать одинаковыми и близкими к выходному формату.
  • Все изображения должны крутиться вокруг одной темы — лишние референсы путают модель.
  • Порядок картинок важен — выкладывайте в нужной визуальной/нарративной последовательности.
  • Промпт обязателен и должен явно описывать роль каждого набора изображений — не оставляйте модель гадать.

Video Editing — 4 сценария

Когда у вас уже есть видео (сгенерированное или своё) и нужно изменить его частично, не перегенерируя с нуля.

Сценарий 1. Style Transfer

Сохраняем содержимое, композицию, действия — меняем только визуальный стиль.

Use cases: live-action → anime / oil painting / watercolor / pixel art; обычное видео → cyberpunk / vaporwave / vintage film; кинематографичный цветокор поверх повседневной съёмки.

Подготовка: исходник с чётким субъектом и стабильной композицией. Видео с сильным шейкингом или размытыми субъектами после рестайла развалятся.

Как писать промпт:

  • Описывайте характеристики целевого стиля — не повторяйте описание персонажей и сцен из исходного видео.
  • Используйте конкретные стилевые термины: вместо «artistic style» пишите «Japanese film aesthetic, soft backlighting, muted pastel tones».
  • Можно указывать color tone, brushwork, era.
Transform into Studio Ghibli animation style, hand-drawn texture,
increased saturation, bluer skies, keep character actions and camera
unchanged.
Convert to cyberpunk style, neon light effects, reflections on rainy
night streets, predominantly cool tones, keep character outlines sharp
and clear.

Замечания: чем драматичнее изменение стиля, тем больше деталей лица может «поплыть». Экстремальные стили (line art, чистый силуэт) теряют детали движения — используйте осторожно.

Сценарий 2. Subject Replacement

Сохраняем действия, сцену, движение камеры — меняем людей, предметы, одежду, причёски.

Use cases: outfit swap (примерить другие наряды на одно и то же видео-проходку), смена причёски, замена prop'а (кофе → бокал → телефон), product swap в showcase-видео.

Подготовка: субъект, которого заменяем, должен быть чётко виден и плавно двигаться в кадре. Reference-image содержит замену.

Replace the character's clothing in the video with the outfit shown in
"Image 1," while keeping the character's movements and face unchanged.

Сценарий 3. Scene Transfer

Сохраняем персонажей и действия — заменяем фон/окружение.

Use cases: indoor → outdoor; день → ночь; солнце → дождь; реализм → fantasy (улица → летающий остров); сезонные сдвиги (лето → зима).

Подготовка: видео с чётким разделением субъекта и фона работает лучше всего — например, человек на однотонном фоне или продукт на чистом столе. Reference-image — целевая сцена.

Как писать промпт:

  • Явно подчёркивайте «background/scene replacement» и что сохранить в субъекте.
  • Описывайте свет, атмосферу, время суток новой сцены.
  • Если новый свет существенно отличается от исходного (indoor → outdoor noon), добавляйте «match the subject's lighting to the new scene», иначе персонаж будет выглядеть «приклеенным».
Replace the background with a snowy mountain scene. Keep the character's
actions and pose unchanged. Adjust the lighting on the character to
match the snow's reflections.
Change the scene from an indoor café to a seaside at dusk. Keep the
character and the coffee cup on the table. Bathe the frame in golden
sunset light.

Замечание: видео, где персонаж взаимодействует со сценой (рука на перилах, опирание на стол), несут более высокий риск — в новой сцене может не оказаться эквивалентного объекта. Подбирайте исходник внимательнее.

Сценарий 4. Multi-Element Combined Editing

2-3 модификации одновременно (например, outfit swap + смена сцены + другой свет).

Когда: когда правки взаимосвязаны и редактирование по очереди ломает консистентность стиля; когда хочется сэкономить кредиты.

Как писать промпт: используйте clause-структуру, где каждый clause — одно изменение, со ссылкой на нужное изображение.

Replace the girl's outfit with the white dress from Image 1, change the
scene to the cherry blossom grove from Image 2, switch the lighting to
the soft afternoon backlight style from Image 3. Keep actions, camera,
and expressions unchanged.

Замечание: стабильность падает при >3 параллельных правках. Если изменений больше трёх — разбивайте на два прохода.

Технические лимиты — что задавать в форме CoreMind

Параметр T2V First-Frame I2V Reference (R2V) Video Editing (V2V)
Картинки на входе 0 1 (становится первым кадром) 1–9 1 видео + 1–4 reference images
Формат картинок jpg / jpeg / png / webp jpg / jpeg / png / webp jpg / jpeg / png / webp
Размер картинки до 30 МБ до 30 МБ до 30 МБ
Min разрешение картинки short side ≥300 px short side ≥300 px short side ≥300 px
Aspect ratio картинки 0.4–2.5 0.4–2.5 0.4–2.5
Видео на входе mp4/mov H.264, до 100 МБ, short side ≥320 px, long side ≤2160 px
Промпт обязателен, до 5000 EN / 2500 ZH символов опционально (но рекомендуется), до 5000 / 2500 обязателен, до 5000 / 2500 до 5000 / 2500
Output разрешение 720P / 1080P 720P / 1080P 720P / 1080P 720P / 1080P
Output aspect 16:9 / 9:16 / 4:3 / 3:4 / 1:1 наследует первый кадр 16:9 / 9:16 / 4:3 / 3:4 / 1:1 наследует исходное видео
Длительность 3–15 секунд 3–15 секунд 3–15 секунд 3–15 секунд
Аудио integrated AI voiceover + sound effects то же то же сохранить оригинальную дорожку или AI-сгенерировать

В CoreMind стоимость на момент публикации: 14 кредитов за секунду 720P и 28 кредитов за секунду 1080P. Тестовая итерация (5 секунд 720P) — 70 кредитов, финал (10 секунд 1080P) — 280 кредитов.

Структурированный workflow промптинга

Помимо формулы Scene + Subject + Motion + Audio, официальный гайд рекомендует упорядочивать описание следующим образом, особенно для T2V:

Subject + Action + Scene/Background + Camera Movement + Style/Atmosphere

И подбирать длительность под содержание:

  • 3–5 секунд — простые действия (поворот головы, жест рукой).
  • 5–10 секунд — сложные narrative (действие + реакция).
  • 10–15 секунд — elaborate sequences с динамичной камерой и многоступенчатой сценой.

Что НЕ делать

Из официальной секции 5.2 «Recommendations»:

  1. Избегайте абстрактных описаний типа «beautiful scenery» — конкретизируйте субъект, действие, локацию и движение камеры. Пример замены: «A Golden Retriever running through the snow, low-angle tracking shot».
  2. Не давайте противоречивых команд. «A person standing still while running fast» сломает модель.
  3. Не нагружайте один сегмент множественными субъектами и действиями — разбивайте на несколько генераций.
  4. Не пишите «high quality», «4K», «ultra realistic» — модель и так выдаёт нативные 720P/1080P, эти слова занимают слоты, не давая полезной информации.
  5. Не более 3 параллельных правок в одном V2V-промпте — снижается стабильность.

Где попробовать

HappyHorse 1.0 в CoreMind — на странице /app → вкладка Видео → бренд HappyHorse → версия 1.0:

  • Доступны режимы Text-to-Video и First-Frame Image-to-Video.
  • Aspect ratio: 16:9, 9:16, 1:1, 4:3, 3:4.
  • Длительность: 3–15 секунд.
  • Разрешения: 720P / 1080P.

Без VPN, оплата картой РФ или СБП. Подписки и кредиты — на странице тарифов.

Итог

Главное про HappyHorse 1.0 в одном кадре:

  1. Формула — Scene + Subject + Motion + Audio, четыре слота, размечайте маркерами в квадратных скобках.
  2. Четыре режима — T2V, First-Frame I2V, Multi-Image Reference (1–9 картинок), Video Editing (V2V).
  3. F-I2V vs R2V — «играть от этого кадра» против «использовать как ориентир». Кардинально разные сценарии.
  4. Multi-Image — 4 паттерна: multi-angle, subject+scene separation, multi-subject interaction, narrative storyboard.
  5. V2V — 4 сценария: style transfer, subject replacement, scene transfer, multi-element combined.
  6. Длительность под смысл: 3–5 с простые действия, 5–10 с narrative, 10–15 с elaborate.

Что читать дальше:

Похожие статьи