图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。
计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。
图生视频模型根据图像和文本提示词,生成一段流畅的视频。支持的能力包括:
基础能力:支持选择视频时长( 3/4/5/10/15秒)、指定视频分辨率(480P/720P/1080P)、智能改写prompt、添加水印。
音频能力:支持自动配音,或传入自定义音频文件,实现音画同步。(wan2.5、wan2.6支持)
多镜头叙事:支持生成包含多个镜头的视频,在镜头切换时保持主体一致性。(仅wan2.6支持)
视频特效:部分模型(wanx2.1-i2v-plus和wanx2.1-i2v-turbo)内置“魔法悬浮”、“气球膨胀”等特效模板,可直接调用。
模型概览
模型对比
模型名称 | 能力支持 | 输入模态 | 输出视频规格 |
wan2.6-i2v-flash | 有声视频、无声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.6-i2v | 有声视频 多镜头叙事、声画同步 | 文本、图像、音频 | 分辨率档位:720P、1080P 视频时长:[2s, 15s](整数) 固定规格:30fps、MP4 (H.264编码) |
wan2.5-i2v-preview | 有声视频 声画同步 | 文本、图像、音频 | 分辨率档位:480P、720P、1080P 视频时长:5s、10s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-flash | 无声视频 较2.1模型速度提升50% | 文本、图像 | 分辨率档位:480P、720P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wan2.2-i2v-plus | 无声视频 较2.1模型稳定性与成功率全面提升 | 文本、图像 | 分辨率档位:480P、1080P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-plus | 无声视频 | 文本、图像 | 分辨率档位:720P 视频时长:5s 固定规格:30fps、MP4 (H.264编码) |
wanx2.1-i2v-turbo | 无声视频 | 文本、图像 | 分辨率档位:480P、720P 视频时长:3s、4s、5s 固定规格:30fps、MP4 (H.264编码) |
模型名称 | 说明 | 简介 | 输出视频规格 | 单价 | 免费额度 有效期:阿里云百炼开通后90天内 |
wan2.6-i2v-flash | 万相2.6-flash。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 万相2.6(有声视频) 新增多镜头叙事能力 支持音频能力:支持自动配音,或传入自定义音频文件 | 分辨率档位:720P、1080P 视频时长:5秒、10秒、15秒 固定规格:30fps、MP4 (H.264编码) | 输出有声视频: 720P:0.3元/秒 1080P:0.5元/秒 输出无声视频: 720P:0.15元/秒 1080P:0.25元/秒 | 50秒 |
wan2.6-i2v | 万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。 | 万相2.6(有声视频) 新增多镜头叙事能力 支持音频能力:支持自动配音,或传入自定义音频文件 | 分辨率档位:720P、1080P 视频时长:5秒、10秒、15秒 固定规格:30fps、MP4 (H.264编码) | 720P:0.6元/秒 1080P:1元/秒 | 50秒 |
wan2.5-i2v-preview | 万相2.5 preview。支持自动配音和传入自定义音频文件。 | 万相2.5 preview(有声视频) 新增音频能力:支持自动配音,或传入自定义音频文件 | 分辨率档位:480P、720P、1080P 视频时长:5秒,10秒 固定规格:30fps、MP4 (H.264编码) | 480P:0.3元/秒 720P:0.6元/秒 1080P:1元/秒 | 50秒 |
wan2.2-i2v-flash | 万相2.2极速版。 极致生成速度,指令理解与运镜控制更准,画面元素保持一致,稳定性与成功率全面提升。 | 万相2.2极速版(无声视频) 较2.1模型速度提升50% | 分辨率档位:480P、720P、1080P 视频时长:5秒 固定规格:30fps、MP4 (H.264编码) | 480P:0.10元/秒 720P:0.20元/秒 1080P:0.48元/秒 | 50秒 |
wan2.2-i2v-plus | 万相2.2专业版。 指令理解更准,运镜可控,画面元素保持一致,稳定性与成功率全面提升,生成内容更丰富。 | 万相2.2专业版(无声视频) 较2.1模型稳定性与成功率全面提升 | 分辨率档位:480P、1080P 视频时长:5秒 固定规格:30fps、MP4 (H.264编码) | 480P:0.14元/秒 1080P:0.70元/秒 | 50秒 |
wanx2.1-i2v-turbo | 万相2.1极速版。性价比高。 | 万相2.1极速版(无声视频) | 分辨率档位:480P、720P 视频时长:3、4、5秒 固定规格:30fps、MP4 (H.264编码) | 0.24元/秒 | 200秒 |
wanx2.1-i2v-plus | 万相2.1专业版。画面更具质感。 | 万相2.1专业版(无声视频) | 分辨率档位:720P 视频时长:5秒 固定规格:30fps、MP4 (H.264编码) | 0.70元/秒 | 200秒 |
快速开始
输入提示词 | 输入首帧图像 | 输出视频(多镜头,有声视频) |
镜头从海龟下方缓缓上移,海龟悠然游动,腹部细节清晰可见。 |
|
核心能力
提示词 | 输入首帧图像 | 输出视频(无声视频) |
一只猫在草地上奔跑 |
|
制作多镜头视频
支持模型:wan2.6系列模型。
功能介绍:模型可自动进行分镜切换,例如从全景切换到特写,适合制作MV等场景。
参数设置:
镜头模式: 必须设为
"多镜头"。智能改写: 必须设为 开启(开启智能改写以优化分镜描述)。
输入提示词 | 输入首帧图像 | 输出视频(wan2.6,多镜头视频) |
一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由rap构成,没有其他对话或杂音。 |
输入音频: |
实现声画同步
支持模型:wan2.5和wan2.6系列模型。
功能介绍:让照片中的人物“开口说话”或唱歌,嘴型与音频匹配。更多示例请参见视频声音生成。
参数设置:
传入音频文件:传入
audio_url。模型会根据音频文件对齐口型。自动配音:无需传入
audio_url,默认输出有声视频。模型会根据画面自动生成背景音效、音乐或人声。
输入提示词 | 输入首帧图像 | 输出视频(有声视频) |
一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由rap构成,没有其他对话或杂音。 |
输入音频: |
生成无声视频
支持模型:wan2.6-i2v-flash、wan2.2系列模型、wanx2.1系列模型。
功能介绍:适用于无需音频的纯视觉展示场景,如动态海报、无声短视频等。
参数设置:
wan2.6-i2v-flash:默认生成有声视频。若需生成无声视频,必须显式设置audio=false。即使传入audio_url,只要audio=false,输出仍为无声视频,并按无声视频计费。wan2.2及以下版本模型:默认生成无声视频,无需额外配置。
提示词 | 输入首帧图像 | 输出视频(无声视频) |
一只猫在草地上奔跑 |
|
使用视频特效
支持模型:wanx2.1-i2v-turbo、wanx2.1-i2v-plus。
功能介绍:无需传入Prompt,直接使用内置的特效模板(如“魔法悬浮”、“气球膨胀”),让静态图片动起来。
参数设置:
template:必填,指定特效名称(例如 "flying" 表示魔法悬浮)。调用前请查阅视频特效列表,确认模型是否支持,以免调用失败。prompt:忽略,在使用特效时,prompt 字段无效,建议留空或不传。
提示词 | 输入首帧图像 | 输出视频(“魔法悬浮”特效) |
无 |
|
微信咨询加群



鲁公网安备37021402002337号