图生视频(基于首帧)


图生视频模型将输入图片作为视频首帧,再根据提示词生成视频。视频呈现丰富的艺术风格及影视级画质。

计费规则:按成功生成的视频秒数计费,失败不计费也不占用免费额度。

图生视频模型根据图像文本提示词,生成一段流畅的视频。支持的能力包括:

  • 基础能力:支持选择视频时长( 3/4/5/10/15秒)、指定视频分辨率(480P/720P/1080P)、智能改写prompt、添加水印。

  • 音频能力:支持自动配音,或传入自定义音频文件,实现音画同步。(wan2.5、wan2.6支持)

  • 多镜头叙事:支持生成包含多个镜头的视频,在镜头切换时保持主体一致性。(仅wan2.6支持)

  • 视频特效:部分模型(wanx2.1-i2v-plus和wanx2.1-i2v-turbo)内置“魔法悬浮”、“气球膨胀”等特效模板,可直接调用。


模型概览

模型对比

模型名称

能力支持

输入模态

输出视频规格

wan2.6-i2v-flash 推荐

有声视频、无声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.6-i2v 推荐

有声视频

多镜头叙事、声画同步

文本、图像、音频

分辨率档位:720P、1080P

视频时长:[2s, 15s](整数)

固定规格:30fps、MP4 (H.264编码)

wan2.5-i2v-preview

有声视频

声画同步

文本、图像、音频

分辨率档位:480P、720P、1080P

视频时长:5s、10s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-flash

无声视频

2.1模型速度提升50%

文本、图像

分辨率档位:480P、720P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wan2.2-i2v-plus

无声视频

2.1模型稳定性与成功率全面提升

文本、图像

分辨率档位:480P、1080P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-plus

无声视频

文本、图像

分辨率档位:720P

视频时长:5s

固定规格:30fps、MP4 (H.264编码) 

wanx2.1-i2v-turbo

无声视频

文本、图像

分辨率档位:480P、720P

视频时长:3s、4s、5s

固定规格:30fps、MP4 (H.264编码) 



模型名称

说明

简介

输出视频规格

单价

免费额度

有效期:阿里云百炼开通后90天内

wan2.6-i2v-flash推荐

免费额度

万相2.6-flash。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。

万相2.6(有声视频)

新增多镜头叙事能力

支持音频能力:支持自动配音,或传入自定义音频文件

分辨率档位:720P、1080P

视频时长:5秒、10秒、15

固定规格:30fps、MP4 (H.264编码) 


输出有声视频:


720P:0.3元/秒


1080P:0.5元/秒


输出无声视频:


720P:0.15元/秒


1080P:0.25元/秒


50







wan2.6-i2v推荐

免费额度

万相2.6。新增多镜头叙事能力,同时支持自动配音和传入自定义音频文件。

万相2.6(有声视频)

新增多镜头叙事能力

支持音频能力:支持自动配音,或传入自定义音频文件

分辨率档位:720P、1080P

视频时长:5秒、10秒、15

固定规格:30fps、MP4 (H.264编码) 

720P:0.6元/秒

1080P:1元/秒

50

wan2.5-i2v-preview推荐

免费额度

万相2.5 preview。支持自动配音和传入自定义音频文件。

万相2.5 preview(有声视频)

新增音频能力:支持自动配音,或传入自定义音频文件


分辨率档位:480P、720P、1080P

视频时长:5秒,10

固定规格:30fps、MP4 (H.264编码) 

480P:0.3元/秒

720P:0.6元/秒

1080P:1元/秒

50

wan2.2-i2v-flash

免费额度

万相2.2极速版。

极致生成速度,指令理解与运镜控制更准,画面元素保持一致,稳定性与成功率全面提升。

万相2.2极速版(无声视频)

2.1模型速度提升50%

分辨率档位:480P、720P、1080P

视频时长:5

固定规格:30fps、MP4 (H.264编码) 

480P:0.10元/秒

720P:0.20元/秒

1080P:0.48元/秒

50

wan2.2-i2v-plus

免费额度

万相2.2专业版。

指令理解更准,运镜可控,画面元素保持一致,稳定性与成功率全面提升,生成内容更丰富。

万相2.2专业版(无声视频)

2.1模型稳定性与成功率全面提升

分辨率档位:480P、1080P

视频时长:5

固定规格:30fps、MP4 (H.264编码) 

480P:0.14元/秒

1080P:0.70元/秒

50

wanx2.1-i2v-turbo

免费额度

万相2.1极速版。性价比高。

万相2.1极速版(无声视频)

分辨率档位:480P、720P

视频时长:3、4、5

固定规格:30fps、MP4 (H.264编码) 

0.24元/秒

200

wanx2.1-i2v-plus

免费额度

万相2.1专业版。画面更具质感。

万相2.1专业版(无声视频)

分辨率档位:720P

视频时长:5

固定规格:30fps、MP4 (H.264编码) 

0.70元/秒

200


快速开始

输入提示词

输入首帧图像

输出视频(多镜头,有声视频)

镜头从海龟下方缓缓上移,海龟悠然游动,腹部细节清晰可见。


wan-i2v-haigui

核心能力


提示词

输入首帧图像

输出视频(无声视频)

一只猫在草地上奔跑

image


制作多镜头视频

支持模型wan2.6系列模型

功能介绍:模型可自动进行分镜切换,例如从全景切换到特写,适合制作MV等场景。

参数设置

  • 镜头模式: 必须设为 "多镜头"

  • 智能改写: 必须设为 开启(开启智能改写以优化分镜描述)。

输入提示词

输入首帧图像

输出视频(wan2.6,多镜头视频)

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由rap构成,没有其他对话或杂音。

rap-转换自-png

输入音频

实现声画同步

支持模型wan2.5wan2.6系列模型

功能介绍:让照片中的人物“开口说话”或唱歌,嘴型与音频匹配。更多示例请参见视频声音生成

参数设置:

  • 传入音频文件:传入 audio_url。模型会根据音频文件对齐口型。

  • 自动配音:无需传入 audio_url,默认输出有声视频。模型会根据画面自动生成背景音效、音乐或人声。

输入提示词

输入首帧图像

输出视频(有声视频)

一幅都市奇幻艺术的场景。一个充满动感的涂鸦艺术角色。一个由喷漆所画成的少年,正从一面混凝土墙上活过来。他一边用极快的语速演唱一首英文rap,一边摆着一个经典的、充满活力的说唱歌手姿势。场景设定在夜晚一个充满都市感的铁路桥下。灯光来自一盏孤零零的街灯,营造出电影般的氛围,充满高能量和惊人的细节。视频的音频部分完全由rap构成,没有其他对话或杂音。

rap-转换自-png

输入音频

生成无声视频

支持模型wan2.6-i2v-flashwan2.2系列模型wanx2.1系列模型

功能介绍:适用于无需音频的纯视觉展示场景,如动态海报、无声短视频等。

参数设置

  • wan2.6-i2v-flash:默认生成有声视频。若需生成无声视频,必须显式设置 audio=false。即使传入 audio_url,只要 audio=false,输出仍为无声视频,并按无声视频计费。

  • wan2.2及以下版本模型:默认生成无声视频,无需额外配置。

提示词

输入首帧图像

输出视频(无声视频)

一只猫在草地上奔跑

image


使用视频特效

支持模型wanx2.1-i2v-turbowanx2.1-i2v-plus

功能介绍:无需传入Prompt,直接使用内置的特效模板(如“魔法悬浮”、“气球膨胀”),让静态图片动起来。

参数设置:

  • template必填,指定特效名称(例如 "flying" 表示魔法悬浮)。调用前请查阅视频特效列表,确认模型是否支持,以免调用失败。

  • prompt忽略,在使用特效时,prompt 字段无效,建议留空或不传。

提示词

输入首帧图像

输出视频(“魔法悬浮”特效)

image



Powered by 酷设计 Code ©2026-2030 @青岛酷蜘蛛网络有限公司
微信咨询 微信咨询加群