阿里通义OmniAudio:从360°视频生成空间音频的黑科技

一、OmniAudio究竟是什么?

OmniAudio是阿里巴巴通义实验室语音团队重磅推出的创新技术,能实现从360°视频直接生成空间音频(FOA),为虚拟现实与沉浸式娱乐场景打造更具真实感的音频体验。

为支撑模型训练,团队构建了大规模数据集Sphere360,内含超10.3万个视频片段,覆盖288种音频事件,总时长达到288小时。其训练过程分为两个关键阶段:

  • 自监督coarse-to-fine流匹配预训练:基于大规模非空间音频资源开展自监督学习
  • 基于双分支视频表示的有监督微调:强化模型对声源方向的表征能力

项目资源链接

二、OmniAudio核心功能

(一)空间音频生成能力

可直接从360°视频生成FOA音频,这是一种标准3D空间音频格式,能精准捕捉声音方向性,实现真实的3D音频再现。采用四通道(W、X、Y、Z)表示声音:

  • W通道:负责捕捉整体声压
  • X、Y、Z通道:分别对应前后、左右及垂直方向的声音信息
    在头部旋转时,能确保声音定位的准确性不丢失。

(二)沉浸式体验升级

为VR及沉浸式娱乐领域带来全新可能,有效解决传统视频转音频技术主要生成非空间音频、无法满足沉浸式场景对3D声音定位需求的痛点。

三、OmniAudio技术原理

(一)自监督coarse-to-fine流匹配预训练

1. 数据处理策略

鉴于真实FOA数据稀缺,研究团队借助FreeSound、AudioSet、VGGSound等大规模非空间音频资源,将立体声转换为"伪FOA"格式:

  • W通道:左右声道之和
  • X通道:左右声道之差
  • Y、Z通道:直接置零

2. 模型训练流程

将转换后的"伪FOA"音频输入四通道VAE编码器获取潜在表示,以一定概率进行随机时间窗掩码,再将掩码后的潜在序列与完整序列一同作为条件输入流匹配模型。通过最小化掩码前后潜在状态的速度场差异,实现对音频时序与结构的自监督学习,让模型掌握通用音频特征和宏观时域规律。

(二)基于双分支视频表示的有监督微调

1. 数据利用方式

仅使用真实FOA音频数据,延续掩码流匹配的训练框架,聚焦四通道的空间特性。

2. 模型强化过程

对真实FOA潜在序列采用更高概率的掩码,强化对声源方向(W/X/Y/Z四通道互补关系)的表征能力,在解码端提升高保真空间音频细节的重建效果。

3. 双分支结合机制

完成自监督预训练后,将模型与双分支视频编码器结合:

  • 针对输入的360°全景视频,用冻结的MetaCLIP-Huge图像编码器提取全局特征
  • 从同一视频裁取FOV局部视角,通过同一编码器获取局部细节表征
  • 全局特征经最大池化后作为Transformer的全局条件
  • 局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件

4. 微调与输出流程

在保持预训练初始化参数基本走向的前提下,高效微调条件流场,从噪声中精准"雕刻"出符合视觉指示的FOA潜在轨迹。推理阶段只需采样学得的速度场,经VAE解码器恢复波形,即可输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

四、应用场景探索

(一)虚拟现实(VR)与沉浸式体验

为VR内容生成与视觉场景高度匹配的空间音频,大幅增强用户沉浸感。

(二)360°视频配乐

为全景视频自动生成沉浸式音效,让观众获得更真实的听觉体验。

(三)智能语音助手领域

可集成到智能音箱、智能家电等智能家居设备中,实现语音控制与交互功能,支持用户通过语音指令控制家电开关、调节温度、查询信息等操作。

(四)机器人与自动驾驶领域

为这些系统提供更精准的声音定位和环境感知能力。

版权声明:Midlight 发表于 2025-06-04 20:22:46。
转载请注明:阿里通义OmniAudio:从360°视频生成空间音频的黑科技 | 程序员导航网

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...