参考生视频

万相-参考生视频模型支持多模态输入（文本/图像/视频/音频），可将人物或物体作为主角，根据提示词生成自然生动的表演视频。

快速开始

输入提示词：视频1抱着图2，在图3的椅子上弹奏一支舒缓的乡村民谣，并说道："今天的阳光真好。"图1手中拿着一束向日葵，路过视频1，把手中的花放到视频1旁边的桌子上，并说道："真好听，能不能再唱一遍"。

输入图像（图1）

参考人物

输入视频（视频1）

参考人物

输入图像（图2）

参考物体

输入图像（图3）

参考物体

输入图像（图4）

参考背景

输出视频（多镜头，有声视频）

输入参考音色：

wan-r2v-object4

wan-r2v-backgroud5

适用范围

模型名称	能力支持	输入模态	输出视频规格
wan2.7-r2v `推荐`	有声视频多主体参考生视频，支持为主体配置音色	文本、图像、视频、音频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-r2v-flash	有声视频、无声视频单角色/多角色生视频多镜头叙事、声画同步生成速度更快，性价比高	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）
wan2.6-r2v	有声视频单角色/多角色生视频多镜头叙事、声画同步	文本、图像、视频	分辨率档位：720P、1080P 视频时长：[2s, 10s]（整数）固定规格：30fps、MP4（H.264编码）

核心能力（wan2.7模型）

单图参考（多宫格图）

支持模型：wan2.7系列模型。

功能介绍：输入一张多宫格图（故事板），模型自动识别多宫格布局，生成角色、场景和镜头一致的视频。建议单次仅传入一张多宫格图。

参数设置：

media.type：设置为reference_image（参考图像）。
media.url：多宫格图像的 URL 或 base64 编码字符串。
prompt：当参考素材有且仅有一张图片或一个视频，则可表述为“参考图片”或“参考视频”。

输入提示词：参考图片，3D卡通冒险电影风，角色Q版但材质细腻，动作流畅，色彩鲜明，保持角色与森林场景一致，不要加入文字。氛围：冒险、轻快、神秘、童趣。角色：小男孩探险家：圆帽、背包、短斗篷。小伙伴：会飞的小机器人，圆形身体，蓝色发光眼。场景：奇幻森林，巨大树根、蘑菇、藤蔓、藏宝洞口、阳光光束。分镜脚本： 1. 全景：奇幻森林里高大树木与光束交错，环境神秘明亮。 2. 中景：小男孩拨开藤蔓向前探路。 3. 中景：小机器人飞在他身边，用蓝光扫描前方。 4. 特写：一张旧藏宝图在男孩手里展开。 5. 近景：他露出兴奋表情，眼睛亮起来。 6. 动作镜头：两人跳过树根和小溪，继续深入森林。 7. 中景：藤蔓后方露出一个被苔藓覆盖的宝箱。 8. 特写：宝箱边缘闪出金色光芒。 9. 收束镜头：男孩和小机器人站在宝箱前惊喜对望，冒险感拉满。
输入多宫格图像	输出视频

输入提示词：参考图片，韩漫风格，夜晚灯光柔和，人物表情细腻，场景统一，图中不要出现文字。氛围：治愈、安静、微孤独、温柔。角色：女主：打工结束的年轻女生，长外套，疲惫但温柔。店员少年：便利店夜班店员，清爽短发。场景：深夜便利店，暖白灯，货架整齐，玻璃门外有细雨和街灯。分镜脚本： 1. 全景：深夜便利店在雨夜街角亮着暖白色灯光。 2. 中景：女主推门走进店里，肩上还带着夜雨湿气。 3. 近景：她疲惫地站在热饮柜前，轻轻发呆。 4. 中景：店员少年从收银台抬头看见她。 5. 特写：热饮柜的橙色灯光映在她手边。 6. 近景：女主拿起一罐热饮，神情稍微放松。 7. 近景：店员朝她露出温和而克制的笑并说：”今天也辛苦啦。” 8. 中景：女主回以浅浅笑意，疲惫感被冲淡。 9. 收束镜头：她捧着热饮站在店门前，看着雨夜，便利店灯光把背影映得很温柔。
输入多宫格图像	输出视频

多主体参考+音色定制

支持模型：wan2.7系列模型。

功能介绍：支持传入多个参考图像和参考视频作为主体素材，并可为每个主体独立指定音色，实现多角色同框互动与音色区分。

参数设置：

media：参考素材数组。

media.type：支持 reference_image（参考图像）和 reference_video（参考视频）。参考图像 + 参考视频 ≤ 5。
media.url：素材的 URL；图像还支持 base64 编码字符串。
media.reference_voice（可选）：为主体指定音色的音频 URL，推荐与 reference_image 或 reference_video 搭配使用。
音频生效逻辑：若 reference_video 本身包含音频且未指定 reference_voice，默认使用视频原声；若同时传入，reference_voice 将覆盖视频原声。

prompt：在提示词中指代参考素材，规则如下：

使用“图1、图2”指代 reference_image 素材，使用“视频1、视频2”指代 reference_video 素材，英文提示词则写为“Image 1”、"Video 1”这类标识。
按照media数组定义参考素材的引用顺序，图和视频分别计数。

输入图像（图1）

参考人物

输入视频（视频1）

参考人物

输入图像（图2）

参考物体

输入图像（图3）

参考物体

输入图像（图4）

参考背景

输出视频（多镜头，有声视频）

输入参考音色：

wan-r2v-object4

wan-r2v-backgroud5

输入提示词：图2从画面左侧深处走来，随后切换到图2的特写，图1正靠在右侧图片3充满锈迹的墙壁上发呆。她注意到了脚步声，缓缓转头。图1看到图2后，图1说：“你怎么还是来了？”图2回答：“我们谈谈吧。”

输入图像（图1）

参考人物

输入图像（图2）

参考人物

输入图像（图3）

参考物体

输出视频（多镜头，有声视频）

wan-r2v-voice-gril

输入参考音色：

wan-r2v-voice-boy

输入参考音色：

wan-r2v-voice-bg

多主体参考+首帧控制

支持模型：wan2.7系列模型。

功能介绍：在主体参考基础上加入首帧控制，让画面构图和内容走向更加可控。

参数设置：

media：参考素材数组。

media.type：支持 first_frame、reference_image（参考图像）和 reference_video（参考视频）。
首帧图像最多1张，参考图像和参考视频至少传入1个，参考图像 + 参考视频 ≤ 5。
media.url：素材的 URL；图像还支持 base64 编码字符串。