图生视频2.7

万相2.7-图生视频模型支持多模态输入（文本/图像/音频/视频），可完成首帧生视频、首尾帧生视频、视频续写（首视频片段续写/首视频片段+尾帧续写）三大任务。

基础设置：支持整数级视频时长（2～15 秒）、指定视频分辨率（720P/1080P）、智能改写prompt、添加水印。
音频能力：支持自动配音或上传音频，实现声画同步。
多镜头叙事：可生成包含多个镜头的视频，镜头切换时保持主体一致。

快速开始

输入提示词	输入首视频片段（2秒）	输入尾帧图像	输出视频（12秒，续写10秒）
男人低头向下看到地上的木箱，他弯下腰，小心翼翼打开箱盖，他紧盯着箱内的东西，嘴唇颤抖的微微张开，皱着眉头，眼睛微微张大，露出惊恐的表情。

模型名称

能力支持

输入模态

输出视频规格

wan2.7-i2v-2026-04-25 推荐

有声视频

首帧生视频、首尾帧生视频、视频续写、视频续写+尾帧控制

多镜头叙事、声画同步

文本、图像、音频、视频

分辨率档位：720P、1080P

视频时长：[2s, 15s]（整数）

固定规格：30fps、MP4（H.264编码）

wan2.7-i2v

有声视频

首帧生视频、首尾帧生视频、视频续写、视频续写+尾帧控制

多镜头叙事、声画同步

文本、图像、音频、视频

分辨率档位：720P、1080P

视频时长：[2s, 15s]（整数）

固定规格：30fps、MP4（H.264编码）

核心能力

首帧生视频

支持模型：wan2.7系列模型。

参数设置：media 数组中的 type 字段支持以下两种组合，素材组合详见如何输入素材。

首帧：指定type为first_frame，模型自动为视频配音。
首帧+音频：指定type为first_frame和 driving_audio，模型将依据该音频驱动视频生成（如口型同步、动作卡点）。

输入提示词

输入首帧图像

输出视频

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年，正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap，一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯，营造出电影般的氛围，充满高能量和惊人的细节。视频的音频部分完全由rap构成，没有其他对话或杂音。

rap

输入音频：

首尾帧生视频

支持模型：wan2.7系列模型。

参数设置：media 数组中的 type 字段支持以下两种组合，素材组合详见如何输入素材。

首帧+尾帧：指定type为first_frame和last_frame，模型自动为视频配音。
首帧+尾帧+音频：指定type为first_frame、last_frame和 driving_audio，模型将依据该音频驱动视频生成。

输入提示词	输入首帧图像	输入尾帧图像	输出视频
清晨太阳刚刚升起，在南瓜地里面，有一颗小南瓜上面挂着露珠，突然小南瓜“咔擦”一声，出现了裂缝，从裂缝中透出金光，小南瓜伴随着金光裂开，出现一团白雾，一只小兔子在南瓜裂开的南瓜中央出现。

视频续写

支持模型：wan2.7系列模型。

功能介绍：对输入的首段视频进行内容续写。生成结果包含原始输入片段，其时长计入总生成时长。例如：输入2秒视频，输出设置为 12 秒，则最终生成 12 秒视频（原始 2 秒 + 续写 10 秒）。

参数设置：media 数组中的 type 字段支持以下两种组合，素材组合详见如何输入素材。

首视频片段：指定type为first_clip，续写视频。
首视频片段+尾帧续写：指定type为first_clip和last_frame，在续写首视频的同时控制视频结束状态与尾帧一致。

首视频片段续写

输入提示词	输入首视频片段（2秒）	输出视频（12秒，续写10秒）
面包师端上刷好的面包，将刷子放到一旁，镜头跟随面包师，去斜后方的烤炉进行烤制，面包师关上烤炉门，他站在烤炉旁边，看着正在烤炉里的面包，闻了闻面包的香气，说：“so good”。

首视频片段+尾帧续写

输入提示词	输入首视频片段（2秒）	输入尾帧图像	输出视频（12秒，续写10秒）
男人低头向下看到地上的木箱，他弯下腰，小心翼翼打开箱盖，他紧盯着箱内的东西，嘴唇颤抖的微微张开，皱着眉头，眼睛微微张大，露出惊恐的表情。

鲁ICP备13008304号-5 |

鲁公网安备37021402002337号

微信咨询加群