万相-参考生视频模型支持多模态输入(文本/图像/视频/音频),可将人物或物体作为主角,根据提示词生成自然生动的表演视频。
快速开始
输入提示词:视频1抱着图2,在图3的椅子上弹奏一支舒缓的乡村民谣,并说道:"今天的阳光真好。"图1手中拿着一束向日葵,路过视频1,把手中的花放到视频1旁边的桌子上,并说道:"真好听,能不能再唱一遍"。 | |||||
输入图像(图1) 参考人物 | 输入视频(视频1) 参考人物 | 输入图像(图2) 参考物体 | 输入图像(图3) 参考物体 | 输入图像(图4) 参考背景 | 输出视频(多镜头,有声视频) |
输入参考音色: | 输入参考音色: |
|
|
| |
适用范围
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.7-r2v | 有声视频 多主体参考生视频,支持为主体配置音色 | 文本、图像、视频、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-r2v-flash | 有声视频、无声视频 单角色/多角色生视频 多镜头叙事、声画同步 生成速度更快,性价比高 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
wan2.6-r2v | 有声视频 单角色/多角色生视频 多镜头叙事、声画同步 | 文本、图像、视频 | 分辨率档位:720P、1080P 视频时长:[2s, 10s](整数) 固定规格:30fps、MP4(H.264编码) |
核心能力(wan2.7模型)
单图参考(多宫格图)
支持模型:wan2.7系列模型。
功能介绍:输入一张多宫格图(故事板),模型自动识别多宫格布局,生成角色、场景和镜头一致的视频。建议单次仅传入一张多宫格图。
参数设置:
media.type:设置为reference_image(参考图像)。media.url:多宫格图像的 URL 或 base64 编码字符串。prompt:当参考素材有且仅有一张图片或一个视频,则可表述为“参考图片”或“参考视频”。
输入提示词:参考图片 ,3D卡通冒险电影风,角色Q版但材质细腻,动作流畅,色彩鲜明,保持角色与森林场景一致,不要加入文字。氛围: 冒险、轻快、神秘、童趣。角色: 小男孩探险家:圆帽、背包、短斗篷。小伙伴:会飞的小机器人,圆形身体,蓝色发光眼。场景: 奇幻森林,巨大树根、蘑菇、藤蔓、藏宝洞口、阳光光束。分镜脚本: 1. 全景:奇幻森林里高大树木与光束交错,环境神秘明亮。 2. 中景:小男孩拨开藤蔓向前探路。 3. 中景:小机器人飞在他身边,用蓝光扫描前方。 4. 特写:一张旧藏宝图在男孩手里展开。 5. 近景:他露出兴奋表情,眼睛亮起来。 6. 动作镜头:两人跳过树根和小溪,继续深入森林。 7. 中景:藤蔓后方露出一个被苔藓覆盖的宝箱。 8. 特写:宝箱边缘闪出金色光芒。 9. 收束镜头:男孩和小机器人站在宝箱前惊喜对望,冒险感拉满。 | |
输入多宫格图像 | 输出视频 |
| |
输入提示词:参考图片,韩漫风格,夜晚灯光柔和,人物表情细腻,场景统一,图中不要出现文字。氛围: 治愈、安静、微孤独、温柔。角色: 女主:打工结束的年轻女生,长外套,疲惫但温柔。店员少年:便利店夜班店员,清爽短发。场景: 深夜便利店,暖白灯,货架整齐,玻璃门外有细雨和街灯。分镜脚本: 1. 全景:深夜便利店在雨夜街角亮着暖白色灯光。 2. 中景:女主推门走进店里,肩上还带着夜雨湿气。 3. 近景:她疲惫地站在热饮柜前,轻轻发呆。 4. 中景:店员少年从收银台抬头看见她。 5. 特写:热饮柜的橙色灯光映在她手边。 6. 近景:女主拿起一罐热饮,神情稍微放松。 7. 近景:店员朝她露出温和而克制的笑并说:”今天也辛苦啦。” 8. 中景:女主回以浅浅笑意,疲惫感被冲淡。 9. 收束镜头:她捧着热饮站在店门前,看着雨夜,便利店灯光把背影映得很温柔。 | |
输入多宫格图像 | 输出视频 |
| |
多主体参考+音色定制
支持模型:wan2.7系列模型。
功能介绍:支持传入多个参考图像和参考视频作为主体素材,并可为每个主体独立指定音色,实现多角色同框互动与音色区分。
参数设置:
media:参考素材数组。media.type:支持reference_image(参考图像)和reference_video(参考视频)。参考图像 + 参考视频 ≤ 5。media.url:素材的 URL;图像还支持 base64 编码字符串。media.reference_voice(可选):为主体指定音色的音频 URL,推荐与reference_image或reference_video搭配使用。音频生效逻辑:若
reference_video本身包含音频且未指定reference_voice,默认使用视频原声;若同时传入,reference_voice将覆盖视频原声。prompt:在提示词中指代参考素材,规则如下:使用“图1、图2”指代
reference_image素材,使用“视频1、视频2”指代reference_video素材,英文提示词则写为“Image 1”、"Video 1”这类标识。按照
media数组定义参考素材的引用顺序,图和视频分别计数。
输入提示词:视频1抱着图2,在图3的椅子上弹奏一支舒缓的乡村民谣,并说道:"今天的阳光真好。"图1手中拿着一束向日葵,路过视频1,把手中的花放到视频1旁边的桌子上,并说道:"真好听,能不能再唱一遍"。 | |||||
输入图像(图1) 参考人物 | 输入视频(视频1) 参考人物 | 输入图像(图2) 参考物体 | 输入图像(图3) 参考物体 | 输入图像(图4) 参考背景 | 输出视频(多镜头,有声视频) |
输入参考音色: | 输入参考音色: |
|
|
| |
输入提示词:图2从画面左侧深处走来,随后切换到图2的特写,图1正靠在右侧图片3充满锈迹的墙壁上发呆。她注意到了脚步声,缓缓转头。 图1看到图2后,图1说:“你怎么还是来了?”图2回答:“我们谈谈吧。” | |||
输入图像(图1) 参考人物 | 输入图像(图2) 参考人物 | 输入图像(图3) 参考物体 | 输出视频(多镜头,有声视频) |
输入参考音色: |
输入参考音色: |
| |
多主体参考+首帧控制
支持模型:wan2.7系列模型。
功能介绍:在主体参考基础上加入首帧控制,让画面构图和内容走向更加可控。
参数设置:
media:参考素材数组。media.type:支持first_frame、reference_image(参考图像)和reference_video(参考视频)。首帧图像最多1张,参考图像和参考视频至少传入1个,参考图像 + 参考视频 ≤ 5。
media.url:素材的 URL;图像还支持 base64 编码字符串。prompt:在提示词中指代参考素材,规则如下:使用“图1、图2”指代
reference_image素材,使用“视频1、视频2”指代reference_video素材,英文提示词则写为“Image 1”、"Video 1”这类标识。按照
media数组定义参考素材的引用顺序,图和视频分别计数。首帧无需在提示词中引用。
输入提示词:俯拍在一个蓝色的星球上,镜头逐渐推进到星球上面给到图1特写,他拿着图2,一边吃着图2,一边说:“怎么没人找我来玩呀?” | |||
输入首帧 参考首帧 | 输入图像(图1) 参考主体 | 输入图像(图2) 参考物体 | 输出视频 以首帧的宽高比生成视频 |
|
|
| |
微信咨询加群












鲁公网安备37021402002337号