最近字节刚放出了新的AI视频模型Waver 1.0,这玩意儿可不是简单的“视频生成工具”,功能堆得挺全,性能也有不少突破。咱们今天就从核心能力、性能测试、实用功能这些角度,好好扒一扒它到底值不值得关注。
1. 模型核心能力:文本/图像双场景覆盖
Waver 1.0最基础也最核心的能力,是支持两种主流视频生成场景,不管是纯文字创意还是静态图动起来,它都能搞定:
- 文本到视频:你只需要输入一段文字描述,比如“清晨的公园的里,老人带着小狗慢慢散步,阳光透过树叶洒在地上”,模型就能把这段文字转化成对应的动态视频。
- 图像到视频:如果手里有静态图片,比如一张海边日落照,上传后模型能让画面里的元素“活”起来——比如海浪轻轻起伏、云朵慢慢移动,把静态图变成短动态视频。
另外提一嘴分辨率,它支持720p和1080p两种规格,日常做短视频、创意demo完全够用,画面清晰度不会拉胯。
2. 性能表现:测试集与人工评估双优(附排名表格)
判断AI模型好不好用,光说功能不够,得看实际测试数据。Waver 1.0在两个权威测试集(Waver-Bench1.0和Hermes Motion Testset)上的表现很突出,后来又做了人工评估,从运动质量(动作顺不顺畅)、视觉质量(画面清不清晰、有没有模糊/错位)、提示跟随性(生成内容和输入的文本/图像对不对得上)三个维度打分,结果都比现在市面上的开源、闭源模型强。
下面两个表格是官方引用的“Artificial Analysis”排名数据(截至2025年8月5日19:00 GMT+8),第一个是文本/图像转视频综合排名,第二个是另一类场景的排名,数据没动过,大家可以直接参考:
表格1:文本/图像转视频模型综合排名
排名 | 开发者(Creator) | 模型(Model) | Arena ELO(性能分) | 95%置信区间(95% CI) | 测试次数(#Appearances) | 发布时间(Release Date) | 是否开源(Open Source) |
---|---|---|---|---|---|---|---|
- | ByteDance Seed | Seedance 1.0 | 1,286 | -6/+6 | 23,739 | Jun 2025 | Proprietary(闭源) |
- | Veo 3 Preview(No Audio) | 1,241 | -7/+7 | 20,708 | May 2025 | Proprietary(闭源) | |
- | Bytedance | Waver 1.0 | 1,194 | -8/+9 | 10,127 | Jul 2025 | Proprietary(闭源) |
- | Veo 3 Fast Preview (No Audio) | 1,193 | -8/+8 | 11,465 | Jun 2025 | Proprietary(闭源) | |
88 | Kuaishou KlingAI | Kling 2.1 Master | 1,171 | -9/+9 | 7,954 | May 2025 | Proprietary(闭源) |
- | Veo2 | 1,134 | -8/+6 | 19,956 | Dec 2024 | Proprietary(闭源) | |
- | Kuaishou KlingAI | Kling 2.0 | 1,116 | -6/+7 | 19,716 | Apr 2025 | Proprietary(闭源) |
e | Alibaba | Wan 2.2 A14B | 1,114 | -12/+11 | 4,811 | Jul 2025 | Proprietary(闭源) |
- | PixVerse | PixVerse v4.5 | 1,083 | -9/+9 | 8,708 | May 2025 | Proprietary(闭源) |
10 | OpenAI | Sora | 1,046 | -6/+5 | 25,456 | Dec 2024 | Proprietary(闭源) |
表格2:另一类场景模型排名(具体场景未标注,参考性同样强)
排名 | 开发者(Creator) | 模型(Model) | Arena ELO(性能分) | 95%置信区间(95% CI) | 测试次数(#Appearances) | 发布时间(Released) | 是否开源(Open Source) |
---|---|---|---|---|---|---|---|
- | ByteDance Seed | Seedance 1.0 | 1,348 | -7/+7 | 22,832 | Jun 2025 | Proprietary(闭源) |
2 | MiniMax | Hailuo 020616 | 1,316 | -7/+7 | 22,625 | Jun 2025 | Proprietary(闭源) |
3 | Bytedance | Waver 1.0 | 1,285 | -10/+9 | 8,795 | Jul 2025 | Proprietary(闭源) |
4 | VRVR | Avenger 0.5 | 1,267 | -8/+8 | 16,429 | Jul 2025 | Proprietary(闭源) |
- | Veo 3 Preview (No Audio) | 1,243 | -6/+7 | 21,588 | May 2025 | Proprietary(闭源) | |
6 | Kuaishou KlingAI | Kling 2.1 Master | 1,218 | -9/+9 | 7,234 | May 2025 | Proprietary(闭源) |
7 | Kuaishou KlingAI | Kling 2.1 Pro | 1,212 | -7/-7 | 19,463 | May 2025 | Proprietary(闭源) |
8 | Kuaishou KlingAI | Kling 2.0 | 1,195 | -7/+7 | 21,037 | Apr 2025 | Proprietary(闭源) |
9 | Midjourney | Midjourney V1 | 1,192 | -7/+7 | 20,875 | Jun 2025 | Proprietary(闭源) |
10 | Kuaishou KlingAI | Kling 2.1 Standard | 1,184 | -7/+7 | 19,172 | May 2025 | Proprietary(闭源) |
这里解释下表格里的关键指标,刚接触的同学可能不清楚:
- Arena ELO:类似游戏里的天梯分,分数越高说明模型综合性能越强;
- 95% CI:置信区间,数值范围越小,说明测试结果越稳定,波动小;
- #Appearances:测试次数,次数越多,结果越有参考价值,避免偶然情况影响判断。
3. 实用功能:时长支持与多镜头叙事
除了基础的生成能力,Waver 1.0还有两个挺实用的功能,做内容创作时能省不少事:
(1)视频时长灵活选择
它支持生成5秒和10秒两种长度的视频。别觉得10秒短,对比很多只能生成3-5秒的模型,10秒能更完整地表现内容——比如做一个“篮球运动员运球上篮”的视频,10秒能把运球、起跳、上篮、落地的整个动作流程拍清楚,不会刚到关键帧就断了,情感和动作表达更完整。
(2)多镜头叙事能力
这个功能对做“短剧情”“多场景切换”的视频很有用。简单说,它能生成多个镜头拼接的视频,而且镜头切换、时空转换的时候,核心主题(比如主角是某个人物)、视觉风格(比如全程用动画风)、整体氛围(比如悬疑或温馨)都能保持一致,不会出现“上一个镜头是写实风,下一个突然变卡通”的跳戏情况,保证视频连贯性。
4. 创意拓展:多艺术风格+复杂运动生成
Waver 1.0在“创意多样性”上也下了功夫,不光能生成常规视频,还能玩出不同风格和运动场景:
(1)多种艺术风格可选
它支持的风格还挺丰富,不是只有单一的写实风,比如:
- 极致现实:画面像真实拍摄的一样,适合做模拟场景、产品演示;
- 动画风格:类似2D动画的效果,适合做卡通短片、故事类内容;
- 粘土/毛绒风格:画面像粘土人偶或毛绒玩具搭建的场景,软乎乎的,适合做儿童向、治愈系视频。
(2)复杂运动生成有突破
之前很多AI视频模型做“复杂动作”容易翻车,比如人物跑步手脚不协调、动物运动姿势奇怪。Waver 1.0在这方面有进步:
- 体育场景表现不错,比如跑步、踢球、游泳这些动作,生成的视频里人物动作比较自然,没有明显的“僵硬感”;
- 还支持动物运动生成,比如小狗跑、小鸟飞、小猫跳,虽然一些特别精细的动作(比如宠物做复杂指令)还需要优化,但至少给创作多了个方向。
5. 项目地址与核心亮点总结
最后放个官方项目地址,感兴趣的同学可以直接去看演示视频和详细文档,比光看文字直观多了:
项目官网:https://www.waver.video/
再简单总结下Waver 1.0的核心亮点,方便大家快速抓重点:
- 全能生成:文本转视频、图像转视频都支持,不用来回切换工具;
- 性能能打:测试集分数和人工评估结果都优于现有不少模型,运动、视觉质量有保障;
- 实用度高:支持10秒时长和多镜头叙事,创作时更灵活,不用反复调整;
- 风格多样:写实、动画、粘土等风格都能做,创意限制少。
目前看,这模型在AIGC视频领域算是挺能打的选手,后续如果开放更多接口或降低使用门槛,估计会有不少开发者拿来做创意项目。