图生视频（基于首帧）

图生视频模型将输入图片作为视频首帧，再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。

计费规则：按成功生成的视频秒数计费，失败不计费也不占用免费额度。

图生视频模型根据图像和文本提示词，生成一段流畅的视频。支持的能力包括：

基础能力：支持选择视频时长（ 3/4/5/10/15秒）、指定视频分辨率（480P/720P/1080P）、智能改写prompt、添加水印。
音频能力：支持自动配音，或传入自定义音频文件，实现音画同步。（wan2.5、wan2.6支持）
多镜头叙事：支持生成包含多个镜头的视频，在镜头切换时保持主体一致性。（仅wan2.6支持）
视频特效：部分模型（wanx2.1-i2v-plus和wanx2.1-i2v-turbo）内置“魔法悬浮”、“气球膨胀”等特效模板，可直接调用。

模型概览

模型对比

模型名称	能力支持	输入模态	输出视频规格
wan2.6-i2v-flash `推荐`	有声视频、无声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.6-i2v `推荐`	有声视频多镜头叙事、声画同步	文本、图像、音频	分辨率档位：720P、1080P 视频时长：[2s, 15s]（整数）固定规格：30fps、MP4 (H.264编码)
wan2.5-i2v-preview	有声视频声画同步	文本、图像、音频	分辨率档位：480P、720P、1080P 视频时长：5s、10s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-flash	无声视频较2.1模型速度提升50%	文本、图像	分辨率档位：480P、720P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wan2.2-i2v-plus	无声视频较2.1模型稳定性与成功率全面提升	文本、图像	分辨率档位：480P、1080P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-plus	无声视频	文本、图像	分辨率档位：720P 视频时长：5s 固定规格：30fps、MP4 (H.264编码)
wanx2.1-i2v-turbo	无声视频	文本、图像	分辨率档位：480P、720P 视频时长：3s、4s、5s 固定规格：30fps、MP4 (H.264编码)

模型名称	说明	简介	输出视频规格	单价	免费额度有效期：阿里云百炼开通后90天内
wan2.6-i2v-flash`推荐` 免费额度	万相2.6-flash。新增多镜头叙事能力，同时支持自动配音和传入自定义音频文件。	万相2.6（有声视频）新增多镜头叙事能力支持音频能力：支持自动配音，或传入自定义音频文件	分辨率档位：720P、1080P 视频时长：5秒、10秒、15秒固定规格：30fps、MP4 (H.264编码)	输出有声视频： 720P：0.3元/秒 1080P：0.5元/秒输出无声视频： 720P：0.15元/秒 1080P：0.25元/秒	50秒

wan2.6-i2v`推荐` 免费额度	万相2.6。新增多镜头叙事能力，同时支持自动配音和传入自定义音频文件。	万相2.6（有声视频）新增多镜头叙事能力支持音频能力：支持自动配音，或传入自定义音频文件	分辨率档位：720P、1080P 视频时长：5秒、10秒、15秒固定规格：30fps、MP4 (H.264编码)	720P：0.6元/秒 1080P：1元/秒	50秒
wan2.5-i2v-preview`推荐` 免费额度	万相2.5 preview。支持自动配音和传入自定义音频文件。	万相2.5 preview（有声视频）新增音频能力：支持自动配音，或传入自定义音频文件	分辨率档位：480P、720P、1080P 视频时长：5秒，10秒固定规格：30fps、MP4 (H.264编码)	480P：0.3元/秒 720P：0.6元/秒 1080P：1元/秒	50秒
wan2.2-i2v-flash 免费额度	万相2.2极速版。极致生成速度，指令理解与运镜控制更准，画面元素保持一致，稳定性与成功率全面提升。	万相2.2极速版（无声视频）较2.1模型速度提升50%	分辨率档位：480P、720P、1080P 视频时长：5秒固定规格：30fps、MP4 (H.264编码)	480P：0.10元/秒 720P：0.20元/秒 1080P：0.48元/秒	50秒
wan2.2-i2v-plus 免费额度	万相2.2专业版。指令理解更准，运镜可控，画面元素保持一致，稳定性与成功率全面提升，生成内容更丰富。	万相2.2专业版（无声视频）较2.1模型稳定性与成功率全面提升	分辨率档位：480P、1080P 视频时长：5秒固定规格：30fps、MP4 (H.264编码)	480P：0.14元/秒 1080P：0.70元/秒	50秒
wanx2.1-i2v-turbo 免费额度	万相2.1极速版。性价比高。	万相2.1极速版（无声视频）	分辨率档位：480P、720P 视频时长：3、4、5秒固定规格：30fps、MP4 (H.264编码)	0.24元/秒	200秒
wanx2.1-i2v-plus 免费额度	万相2.1专业版。画面更具质感。	万相2.1专业版（无声视频）	分辨率档位：720P 视频时长：5秒固定规格：30fps、MP4 (H.264编码)	0.70元/秒	200秒

快速开始

输入提示词

输入首帧图像

输出视频（多镜头，有声视频）

镜头从海龟下方缓缓上移，海龟悠然游动，腹部细节清晰可见。

wan-i2v-haigui

核心能力

提示词

输入首帧图像

输出视频（无声视频）

一只猫在草地上奔跑

制作多镜头视频

支持模型：wan2.6系列模型。

功能介绍：模型可自动进行分镜切换，例如从全景切换到特写，适合制作MV等场景。

参数设置：

镜头模式: 必须设为 "多镜头"。
智能改写: 必须设为开启（开启智能改写以优化分镜描述）。

输入提示词

输入首帧图像

输出视频（wan2.6，多镜头视频）

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年，正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap，一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯，营造出电影般的氛围，充满高能量和惊人的细节。视频的音频部分完全由rap构成，没有其他对话或杂音。

rap-转换自-png

输入音频：

实现声画同步

支持模型：wan2.5和wan2.6系列模型。

功能介绍：让照片中的人物“开口说话”或唱歌，嘴型与音频匹配。更多示例请参见视频声音生成。

参数设置：

传入音频文件：传入 audio_url。模型会根据音频文件对齐口型。
自动配音：无需传入 audio_url，默认输出有声视频。模型会根据画面自动生成背景音效、音乐或人声。

输入提示词

输入首帧图像

输出视频（有声视频）

rap-转换自-png

输入音频：

生成无声视频

支持模型：wan2.6-i2v-flash、wan2.2系列模型、wanx2.1系列模型。

功能介绍：适用于无需音频的纯视觉展示场景，如动态海报、无声短视频等。

参数设置：

wan2.6-i2v-flash：默认生成有声视频。若需生成无声视频，必须显式设置 audio=false。即使传入 audio_url，只要 audio=false，输出仍为无声视频，并按无声视频计费。
wan2.2及以下版本模型：默认生成无声视频，无需额外配置。

提示词

输入首帧图像

输出视频（无声视频）

一只猫在草地上奔跑

使用视频特效

支持模型：wanx2.1-i2v-turbo、wanx2.1-i2v-plus。

功能介绍：无需传入Prompt，直接使用内置的特效模板（如“魔法悬浮”、“气球膨胀”），让静态图片动起来。

参数设置：

template：必填，指定特效名称（例如 "flying" 表示魔法悬浮）。调用前请查阅视频特效列表，确认模型是否支持，以免调用失败。
prompt：忽略，在使用特效时，prompt 字段无效，建议留空或不传。

提示词

输入首帧图像

输出视频（“魔法悬浮”特效）

无

鲁ICP备13008304号-5 |

鲁公网安备37021402002337号

微信咨询加群