字节新AI视频模型Waver 1.0发布:全能生成+多风格支持,性能碾压不少竞品

最近字节刚放出了新的AI视频模型Waver 1.0,这玩意儿可不是简单的“视频生成工具”,功能堆得挺全,性能也有不少突破。咱们今天就从核心能力、性能测试、实用功能这些角度,好好扒一扒它到底值不值得关注。

1. 模型核心能力:文本/图像双场景覆盖

Waver 1.0最基础也最核心的能力,是支持两种主流视频生成场景,不管是纯文字创意还是静态图动起来,它都能搞定:

  • 文本到视频:你只需要输入一段文字描述,比如“清晨的公园的里,老人带着小狗慢慢散步,阳光透过树叶洒在地上”,模型就能把这段文字转化成对应的动态视频。
  • 图像到视频:如果手里有静态图片,比如一张海边日落照,上传后模型能让画面里的元素“活”起来——比如海浪轻轻起伏、云朵慢慢移动,把静态图变成短动态视频。

另外提一嘴分辨率,它支持720p和1080p两种规格,日常做短视频、创意demo完全够用,画面清晰度不会拉胯。

2. 性能表现:测试集与人工评估双优(附排名表格)

判断AI模型好不好用,光说功能不够,得看实际测试数据。Waver 1.0在两个权威测试集(Waver-Bench1.0和Hermes Motion Testset)上的表现很突出,后来又做了人工评估,从运动质量(动作顺不顺畅)、视觉质量(画面清不清晰、有没有模糊/错位)、提示跟随性(生成内容和输入的文本/图像对不对得上)三个维度打分,结果都比现在市面上的开源、闭源模型强。

下面两个表格是官方引用的“Artificial Analysis”排名数据(截至2025年8月5日19:00 GMT+8),第一个是文本/图像转视频综合排名,第二个是另一类场景的排名,数据没动过,大家可以直接参考:

表格1:文本/图像转视频模型综合排名

排名 开发者(Creator) 模型(Model) Arena ELO(性能分) 95%置信区间(95% CI) 测试次数(#Appearances) 发布时间(Release Date) 是否开源(Open Source)
- ByteDance Seed Seedance 1.0 1,286 -6/+6 23,739 Jun 2025 Proprietary(闭源)
- Google Veo 3 Preview(No Audio) 1,241 -7/+7 20,708 May 2025 Proprietary(闭源)
- Bytedance Waver 1.0 1,194 -8/+9 10,127 Jul 2025 Proprietary(闭源)
- Google Veo 3 Fast Preview (No Audio) 1,193 -8/+8 11,465 Jun 2025 Proprietary(闭源)
88 Kuaishou KlingAI Kling 2.1 Master 1,171 -9/+9 7,954 May 2025 Proprietary(闭源)
- Google Veo2 1,134 -8/+6 19,956 Dec 2024 Proprietary(闭源)
- Kuaishou KlingAI Kling 2.0 1,116 -6/+7 19,716 Apr 2025 Proprietary(闭源)
e Alibaba Wan 2.2 A14B 1,114 -12/+11 4,811 Jul 2025 Proprietary(闭源)
- PixVerse PixVerse v4.5 1,083 -9/+9 8,708 May 2025 Proprietary(闭源)
10 OpenAI Sora 1,046 -6/+5 25,456 Dec 2024 Proprietary(闭源)

表格2:另一类场景模型排名(具体场景未标注,参考性同样强)

排名 开发者(Creator) 模型(Model) Arena ELO(性能分) 95%置信区间(95% CI) 测试次数(#Appearances) 发布时间(Released) 是否开源(Open Source)
- ByteDance Seed Seedance 1.0 1,348 -7/+7 22,832 Jun 2025 Proprietary(闭源)
2 MiniMax Hailuo 020616 1,316 -7/+7 22,625 Jun 2025 Proprietary(闭源)
3 Bytedance Waver 1.0 1,285 -10/+9 8,795 Jul 2025 Proprietary(闭源)
4 VRVR Avenger 0.5 1,267 -8/+8 16,429 Jul 2025 Proprietary(闭源)
- Google Veo 3 Preview (No Audio) 1,243 -6/+7 21,588 May 2025 Proprietary(闭源)
6 Kuaishou KlingAI Kling 2.1 Master 1,218 -9/+9 7,234 May 2025 Proprietary(闭源)
7 Kuaishou KlingAI Kling 2.1 Pro 1,212 -7/-7 19,463 May 2025 Proprietary(闭源)
8 Kuaishou KlingAI Kling 2.0 1,195 -7/+7 21,037 Apr 2025 Proprietary(闭源)
9 Midjourney Midjourney V1 1,192 -7/+7 20,875 Jun 2025 Proprietary(闭源)
10 Kuaishou KlingAI Kling 2.1 Standard 1,184 -7/+7 19,172 May 2025 Proprietary(闭源)

这里解释下表格里的关键指标,刚接触的同学可能不清楚:

  • Arena ELO:类似游戏里的天梯分,分数越高说明模型综合性能越强;
  • 95% CI:置信区间,数值范围越小,说明测试结果越稳定,波动小;
  • #Appearances:测试次数,次数越多,结果越有参考价值,避免偶然情况影响判断。

3. 实用功能:时长支持与多镜头叙事

除了基础的生成能力,Waver 1.0还有两个挺实用的功能,做内容创作时能省不少事:

(1)视频时长灵活选择

它支持生成5秒和10秒两种长度的视频。别觉得10秒短,对比很多只能生成3-5秒的模型,10秒能更完整地表现内容——比如做一个“篮球运动员运球上篮”的视频,10秒能把运球、起跳、上篮、落地的整个动作流程拍清楚,不会刚到关键帧就断了,情感和动作表达更完整。

(2)多镜头叙事能力

这个功能对做“短剧情”“多场景切换”的视频很有用。简单说,它能生成多个镜头拼接的视频,而且镜头切换、时空转换的时候,核心主题(比如主角是某个人物)、视觉风格(比如全程用动画风)、整体氛围(比如悬疑或温馨)都能保持一致,不会出现“上一个镜头是写实风,下一个突然变卡通”的跳戏情况,保证视频连贯性。

4. 创意拓展:多艺术风格+复杂运动生成

Waver 1.0在“创意多样性”上也下了功夫,不光能生成常规视频,还能玩出不同风格和运动场景:

(1)多种艺术风格可选

它支持的风格还挺丰富,不是只有单一的写实风,比如:

  • 极致现实:画面像真实拍摄的一样,适合做模拟场景、产品演示;
  • 动画风格:类似2D动画的效果,适合做卡通短片、故事类内容;
  • 粘土/毛绒风格:画面像粘土人偶或毛绒玩具搭建的场景,软乎乎的,适合做儿童向、治愈系视频。

(2)复杂运动生成有突破

之前很多AI视频模型做“复杂动作”容易翻车,比如人物跑步手脚不协调、动物运动姿势奇怪。Waver 1.0在这方面有进步:

  • 体育场景表现不错,比如跑步、踢球、游泳这些动作,生成的视频里人物动作比较自然,没有明显的“僵硬感”;
  • 还支持动物运动生成,比如小狗跑、小鸟飞、小猫跳,虽然一些特别精细的动作(比如宠物做复杂指令)还需要优化,但至少给创作多了个方向。

5. 项目地址与核心亮点总结

最后放个官方项目地址,感兴趣的同学可以直接去看演示视频和详细文档,比光看文字直观多了:
项目官网:https://www.waver.video/

再简单总结下Waver 1.0的核心亮点,方便大家快速抓重点:

  • 全能生成:文本转视频、图像转视频都支持,不用来回切换工具;
  • 性能能打:测试集分数和人工评估结果都优于现有不少模型,运动、视觉质量有保障;
  • 实用度高:支持10秒时长和多镜头叙事,创作时更灵活,不用反复调整;
  • 风格多样:写实、动画、粘土等风格都能做,创意限制少。

目前看,这模型在AIGC视频领域算是挺能打的选手,后续如果开放更多接口或降低使用门槛,估计会有不少开发者拿来做创意项目。

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...