字节新AI视频模型Waver 1.0发布：全能生成+多风格支持，性能碾压不少竞品

文章 1周前 Midlight

3 0 0

最近字节刚放出了新的AI视频模型Waver 1.0，这玩意儿可不是简单的“视频生成工具”，功能堆得挺全，性能也有不少突破。咱们今天就从核心能力、性能测试、实用功能这些角度，好好扒一扒它到底值不值得关注。

1. 模型核心能力：文本/图像双场景覆盖

Waver 1.0最基础也最核心的能力，是支持两种主流视频生成场景，不管是纯文字创意还是静态图动起来，它都能搞定：

文本到视频：你只需要输入一段文字描述，比如“清晨的公园的里，老人带着小狗慢慢散步，阳光透过树叶洒在地上”，模型就能把这段文字转化成对应的动态视频。
图像到视频：如果手里有静态图片，比如一张海边日落照，上传后模型能让画面里的元素“活”起来——比如海浪轻轻起伏、云朵慢慢移动，把静态图变成短动态视频。

另外提一嘴分辨率，它支持720p和1080p两种规格，日常做短视频、创意demo完全够用，画面清晰度不会拉胯。

2. 性能表现：测试集与人工评估双优（附排名表格）

判断AI模型好不好用，光说功能不够，得看实际测试数据。Waver 1.0在两个权威测试集（Waver-Bench1.0和Hermes Motion Testset）上的表现很突出，后来又做了人工评估，从运动质量（动作顺不顺畅）、视觉质量（画面清不清晰、有没有模糊/错位）、提示跟随性（生成内容和输入的文本/图像对不对得上）三个维度打分，结果都比现在市面上的开源、闭源模型强。

下面两个表格是官方引用的“Artificial Analysis”排名数据（截至2025年8月5日19:00 GMT+8），第一个是文本/图像转视频综合排名，第二个是另一类场景的排名，数据没动过，大家可以直接参考：

表格1：文本/图像转视频模型综合排名

排名	开发者（Creator）	模型（Model）	Arena ELO（性能分）	95%置信区间（95% CI）	测试次数（#Appearances）	发布时间（Release Date）	是否开源（Open Source）
-	ByteDance Seed	Seedance 1.0	1,286	-6/+6	23,739	Jun 2025	Proprietary（闭源）
-	Google	Veo 3 Preview(No Audio)	1,241	-7/+7	20,708	May 2025	Proprietary（闭源）
-	Bytedance	Waver 1.0	1,194	-8/+9	10,127	Jul 2025	Proprietary（闭源）
-	Google	Veo 3 Fast Preview (No Audio)	1,193	-8/+8	11,465	Jun 2025	Proprietary（闭源）
88	Kuaishou KlingAI	Kling 2.1 Master	1,171	-9/+9	7,954	May 2025	Proprietary（闭源）
-	Google	Veo2	1,134	-8/+6	19,956	Dec 2024	Proprietary（闭源）
-	Kuaishou KlingAI	Kling 2.0	1,116	-6/+7	19,716	Apr 2025	Proprietary（闭源）
e	Alibaba	Wan 2.2 A14B	1,114	-12/+11	4,811	Jul 2025	Proprietary（闭源）
-	PixVerse	PixVerse v4.5	1,083	-9/+9	8,708	May 2025	Proprietary（闭源）
10	OpenAI	Sora	1,046	-6/+5	25,456	Dec 2024	Proprietary（闭源）

表格2：另一类场景模型排名（具体场景未标注，参考性同样强）

排名	开发者（Creator）	模型（Model）	Arena ELO（性能分）	95%置信区间（95% CI）	测试次数（#Appearances）	发布时间（Released）	是否开源（Open Source）
-	ByteDance Seed	Seedance 1.0	1,348	-7/+7	22,832	Jun 2025	Proprietary（闭源）
2	MiniMax	Hailuo 020616	1,316	-7/+7	22,625	Jun 2025	Proprietary（闭源）
3	Bytedance	Waver 1.0	1,285	-10/+9	8,795	Jul 2025	Proprietary（闭源）
4	VRVR	Avenger 0.5	1,267	-8/+8	16,429	Jul 2025	Proprietary（闭源）
-	Google	Veo 3 Preview (No Audio)	1,243	-6/+7	21,588	May 2025	Proprietary（闭源）
6	Kuaishou KlingAI	Kling 2.1 Master	1,218	-9/+9	7,234	May 2025	Proprietary（闭源）
7	Kuaishou KlingAI	Kling 2.1 Pro	1,212	-7/-7	19,463	May 2025	Proprietary（闭源）
8	Kuaishou KlingAI	Kling 2.0	1,195	-7/+7	21,037	Apr 2025	Proprietary（闭源）
9	Midjourney	Midjourney V1	1,192	-7/+7	20,875	Jun 2025	Proprietary（闭源）
10	Kuaishou KlingAI	Kling 2.1 Standard	1,184	-7/+7	19,172	May 2025	Proprietary（闭源）

这里解释下表格里的关键指标，刚接触的同学可能不清楚：

Arena ELO：类似游戏里的天梯分，分数越高说明模型综合性能越强；
95% CI：置信区间，数值范围越小，说明测试结果越稳定，波动小；
#Appearances：测试次数，次数越多，结果越有参考价值，避免偶然情况影响判断。

3. 实用功能：时长支持与多镜头叙事

除了基础的生成能力，Waver 1.0还有两个挺实用的功能，做内容创作时能省不少事：

（1）视频时长灵活选择

它支持生成5秒和10秒两种长度的视频。别觉得10秒短，对比很多只能生成3-5秒的模型，10秒能更完整地表现内容——比如做一个“篮球运动员运球上篮”的视频，10秒能把运球、起跳、上篮、落地的整个动作流程拍清楚，不会刚到关键帧就断了，情感和动作表达更完整。

（2）多镜头叙事能力

这个功能对做“短剧情”“多场景切换”的视频很有用。简单说，它能生成多个镜头拼接的视频，而且镜头切换、时空转换的时候，核心主题（比如主角是某个人物）、视觉风格（比如全程用动画风）、整体氛围（比如悬疑或温馨）都能保持一致，不会出现“上一个镜头是写实风，下一个突然变卡通”的跳戏情况，保证视频连贯性。

4. 创意拓展：多艺术风格+复杂运动生成

Waver 1.0在“创意多样性”上也下了功夫，不光能生成常规视频，还能玩出不同风格和运动场景：

（1）多种艺术风格可选

它支持的风格还挺丰富，不是只有单一的写实风，比如：

极致现实：画面像真实拍摄的一样，适合做模拟场景、产品演示；
动画风格：类似2D动画的效果，适合做卡通短片、故事类内容；
粘土/毛绒风格：画面像粘土人偶或毛绒玩具搭建的场景，软乎乎的，适合做儿童向、治愈系视频。

（2）复杂运动生成有突破

之前很多AI视频模型做“复杂动作”容易翻车，比如人物跑步手脚不协调、动物运动姿势奇怪。Waver 1.0在这方面有进步：

体育场景表现不错，比如跑步、踢球、游泳这些动作，生成的视频里人物动作比较自然，没有明显的“僵硬感”；
还支持动物运动生成，比如小狗跑、小鸟飞、小猫跳，虽然一些特别精细的动作（比如宠物做复杂指令）还需要优化，但至少给创作多了个方向。

5. 项目地址与核心亮点总结

最后放个官方项目地址，感兴趣的同学可以直接去看演示视频和详细文档，比光看文字直观多了：
项目官网：https://www.waver.video/

再简单总结下Waver 1.0的核心亮点，方便大家快速抓重点：

全能生成：文本转视频、图像转视频都支持，不用来回切换工具；
性能能打：测试集分数和人工评估结果都优于现有不少模型，运动、视觉质量有保障；
实用度高：支持10秒时长和多镜头叙事，创作时更灵活，不用反复调整；
风格多样：写实、动画、粘土等风格都能做，创意限制少。

目前看，这模型在AIGC视频领域算是挺能打的选手，后续如果开放更多接口或降低使用门槛，估计会有不少开发者拿来做创意项目。

OpenAI

版权声明：Midlight 发表于 2025-08-27 16:05:06。
转载请注明：字节新AI视频模型Waver 1.0发布：全能生成+多风格支持，性能碾压不少竞品 | 程序员导航网

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

字节新AI视频模型Waver 1.0发布：全能生成+多风格支持，性能碾压不少竞品

1. 模型核心能力：文本/图像双场景覆盖

2. 性能表现：测试集与人工评估双优（附排名表格）

表格1：文本/图像转视频模型综合排名

表格2：另一类场景模型排名（具体场景未标注，参考性同样强）

3. 实用功能：时长支持与多镜头叙事

（1）视频时长灵活选择

（2）多镜头叙事能力

4. 创意拓展：多艺术风格+复杂运动生成

（1）多种艺术风格可选

（2）复杂运动生成有突破

5. 项目地址与核心亮点总结

解锁高效研究新方式：DecipherIt多源整合AI研究助手详解

腾讯游戏AI工具集VISVISE亮相科隆展：动画制作效率直接拉满8倍

暂无评论

字节新AI视频模型Waver 1.0发布：全能生成+多风格支持，性能碾压不少竞品

1. 模型核心能力：文本/图像双场景覆盖

2. 性能表现：测试集与人工评估双优（附排名表格）

表格1：文本/图像转视频模型综合排名

表格2：另一类场景模型排名（具体场景未标注，参考性同样强）

3. 实用功能：时长支持与多镜头叙事

（1）视频时长灵活选择

（2）多镜头叙事能力

4. 创意拓展：多艺术风格+复杂运动生成

（1）多种艺术风格可选

（2）复杂运动生成有突破

5. 项目地址与核心亮点总结

解锁高效研究新方式：DecipherIt多源整合AI研究助手详解

腾讯游戏AI工具集VISVISE亮相科隆展：动画制作效率直接拉满8倍

暂无评论

收藏至：