参考生视频


万相-参考生视频模型支持多模态输入(文本/图像/视频/音频),可将人物或物体作为主角,根据提示词生成自然生动的表演视频。


快速开始

输入提示词:视频1抱着图2,在图3的椅子上弹奏一支舒缓的乡村民谣,并说道:"今天的阳光真好。"图1手中拿着一束向日葵,路过视频1,把手中的花放到视频1旁边的桌子上,并说道:"真好听,能不能再唱一遍"。

输入图像(图1)

参考人物

输入视频(视频1)

参考人物

输入图像(图2)

参考物体

输入图像(图3)

参考物体

输入图像(图4)

参考背景

输出视频(多镜头,有声视频)

image

输入参考音色

输入参考音色

image

wan-r2v-object4

wan-r2v-backgroud5

适用范围

模型名称

能力支持

输入模态

输出视频规格

wan2.7-r2v 推荐

有声视频

多主体参考生视频,支持为主体配置音色

文本、图像、视频、音频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-r2v-flash

有声视频、无声视频

单角色/多角色生视频

多镜头叙事、声画同步

生成速度更快,性价比高

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

wan2.6-r2v

有声视频

单角色/多角色生视频

多镜头叙事、声画同步

文本、图像、视频

分辨率档位:720P、1080P

视频时长:[2s, 10s](整数)

固定规格:30fps、MP4(H.264编码)

核心能力(wan2.7模型)

单图参考(多宫格图)

支持模型wan2.7系列模型

功能介绍:输入一张多宫格图(故事板),模型自动识别多宫格布局,生成角色、场景和镜头一致的视频。建议单次仅传入一张多宫格图。

参数设置

  • media.type:设置为reference_image(参考图像)。

  • media.url:多宫格图像的 URL 或 base64 编码字符串。

  • prompt:当参考素材有且仅有一张图片或一个视频,则可表述为“参考图片”或“参考视频”。

输入提示词:参考图片 ,3D卡通冒险电影风,角色Q版但材质细腻,动作流畅,色彩鲜明,保持角色与森林场景一致,不要加入文字。氛围: 冒险、轻快、神秘、童趣。角色: 小男孩探险家:圆帽、背包、短斗篷。小伙伴:会飞的小机器人,圆形身体,蓝色发光眼。场景: 奇幻森林,巨大树根、蘑菇、藤蔓、藏宝洞口、阳光光束。分镜脚本: 1. 全景:奇幻森林里高大树木与光束交错,环境神秘明亮。 2. 中景:小男孩拨开藤蔓向前探路。 3. 中景:小机器人飞在他身边,用蓝光扫描前方。 4. 特写:一张旧藏宝图在男孩手里展开。 5. 近景:他露出兴奋表情,眼睛亮起来。 6. 动作镜头:两人跳过树根和小溪,继续深入森林。 7. 中景:藤蔓后方露出一个被苔藓覆盖的宝箱。 8. 特写:宝箱边缘闪出金色光芒。 9. 收束镜头:男孩和小机器人站在宝箱前惊喜对望,冒险感拉满。

输入多宫格图像

输出视频

banana_storyboard

输入提示词:参考图片,韩漫风格,夜晚灯光柔和,人物表情细腻,场景统一,图中不要出现文字。氛围: 治愈、安静、微孤独、温柔。角色: 女主:打工结束的年轻女生,长外套,疲惫但温柔。店员少年:便利店夜班店员,清爽短发。场景: 深夜便利店,暖白灯,货架整齐,玻璃门外有细雨和街灯。分镜脚本: 1. 全景:深夜便利店在雨夜街角亮着暖白色灯光。 2. 中景:女主推门走进店里,肩上还带着夜雨湿气。 3. 近景:她疲惫地站在热饮柜前,轻轻发呆。 4. 中景:店员少年从收银台抬头看见她。 5. 特写:热饮柜的橙色灯光映在她手边。 6. 近景:女主拿起一罐热饮,神情稍微放松。 7. 近景:店员朝她露出温和而克制的笑并说:”今天也辛苦啦。” 8. 中景:女主回以浅浅笑意,疲惫感被冲淡。 9. 收束镜头:她捧着热饮站在店门前,看着雨夜,便利店灯光把背影映得很温柔。

输入多宫格图像

输出视频

banana_storyboard_00000012

多主体参考+音色定制

支持模型wan2.7系列模型

功能介绍:支持传入多个参考图像和参考视频作为主体素材,并可为每个主体独立指定音色,实现多角色同框互动与音色区分。

参数设置

  • media:参考素材数组。

    • media.type:支持 reference_image(参考图像)和 reference_video(参考视频)。参考图像 + 参考视频 ≤ 5

    • media.url:素材的 URL;图像还支持 base64 编码字符串。

    • media.reference_voice(可选):为主体指定音色的音频 URL,推荐与 reference_image 或 reference_video 搭配使用。

      音频生效逻辑:若 reference_video 本身包含音频且未指定 reference_voice,默认使用视频原声;若同时传入,reference_voice 将覆盖视频原声。

  • prompt:在提示词中指代参考素材,规则如下:

    • 使用“1、图2”指代 reference_image 素材,使用“视频1、视频2”指代 reference_video 素材,英文提示词则写为“Image 1”、"Video 1”这类标识。

    • 按照media数组定义参考素材的引用顺序,图和视频分别计数。

输入提示词:视频1抱着图2,在图3的椅子上弹奏一支舒缓的乡村民谣,并说道:"今天的阳光真好。"图1手中拿着一束向日葵,路过视频1,把手中的花放到视频1旁边的桌子上,并说道:"真好听,能不能再唱一遍"。

输入图像(图1)

参考人物

输入视频(视频1)

参考人物

输入图像(图2)

参考物体

输入图像(图3)

参考物体

输入图像(图4)

参考背景

输出视频(多镜头,有声视频)

image

输入参考音色

输入参考音色

image

wan-r2v-object4

wan-r2v-backgroud5

输入提示词:图2从画面左侧深处走来,随后切换到图2的特写,图1正靠在右侧图片3充满锈迹的墙壁上发呆。她注意到了脚步声,缓缓转头。 图1看到图2后,图1说:“你怎么还是来了?”图2回答:“我们谈谈吧。”

输入图像(图1)

参考人物

输入图像(图2)

参考人物

输入图像(图3)

参考物体

输出视频(多镜头,有声视频)

wan-r2v-voice-gril

输入参考音色

wan-r2v-voice-boy

输入参考音色:

wan-r2v-voice-bg

多主体参考+首帧控制

支持模型wan2.7系列模型

功能介绍:在主体参考基础上加入首帧控制,让画面构图和内容走向更加可控。

参数设置

  • media:参考素材数组。

    • media.type:支持 first_framereference_image(参考图像)和 reference_video(参考视频)。

      首帧图像最多1张,参考图像和参考视频至少传入1个,参考图像 + 参考视频 ≤ 5

    • media.url:素材的 URL;图像还支持 base64 编码字符串。

  • prompt:在提示词中指代参考素材,规则如下:

    • 使用“1、图2”指代 reference_image 素材,使用“视频1、视频2”指代 reference_video 素材,英文提示词则写为“Image 1”、"Video 1”这类标识。

    • 按照media数组定义参考素材的引用顺序,图和视频分别计数。

    • 首帧无需在提示词中引用。

输入提示词:俯拍在一个蓝色的星球上,镜头逐渐推进到星球上面给到图1特写,他拿着图2,一边吃着图2,一边说:“怎么没人找我来玩呀?”

输入首帧

参考首帧

输入图像(图1)

参考主体

输入图像(图2)

参考物体

输出视频

以首帧的宽高比生成视频

wan2

wan2

wan2


Powered by 酷设计 Code ©2026-2030 @青岛酷蜘蛛网络有限公司
微信咨询 微信咨询加群