一、OmniAudio究竟是什么?
OmniAudio是阿里巴巴通义实验室语音团队重磅推出的创新技术,能实现从360°视频直接生成空间音频(FOA),为虚拟现实与沉浸式娱乐场景打造更具真实感的音频体验。
为支撑模型训练,团队构建了大规模数据集Sphere360,内含超10.3万个视频片段,覆盖288种音频事件,总时长达到288小时。其训练过程分为两个关键阶段:
- 自监督coarse-to-fine流匹配预训练:基于大规模非空间音频资源开展自监督学习
- 基于双分支视频表示的有监督微调:强化模型对声源方向的表征能力
项目资源链接
- 项目官网:https://omniaudio-360v2sa.github.io/
- Github仓库:https://github.com/liuhuadai/OmniAudio
- arXiv技术论文:https://arxiv.org/pdf/2504.14906
二、OmniAudio核心功能
(一)空间音频生成能力
可直接从360°视频生成FOA音频,这是一种标准3D空间音频格式,能精准捕捉声音方向性,实现真实的3D音频再现。采用四通道(W、X、Y、Z)表示声音:
- W通道:负责捕捉整体声压
- X、Y、Z通道:分别对应前后、左右及垂直方向的声音信息
在头部旋转时,能确保声音定位的准确性不丢失。
(二)沉浸式体验升级
为VR及沉浸式娱乐领域带来全新可能,有效解决传统视频转音频技术主要生成非空间音频、无法满足沉浸式场景对3D声音定位需求的痛点。
三、OmniAudio技术原理
(一)自监督coarse-to-fine流匹配预训练
1. 数据处理策略
鉴于真实FOA数据稀缺,研究团队借助FreeSound、AudioSet、VGGSound等大规模非空间音频资源,将立体声转换为"伪FOA"格式:
- W通道:左右声道之和
- X通道:左右声道之差
- Y、Z通道:直接置零
2. 模型训练流程
将转换后的"伪FOA"音频输入四通道VAE编码器获取潜在表示,以一定概率进行随机时间窗掩码,再将掩码后的潜在序列与完整序列一同作为条件输入流匹配模型。通过最小化掩码前后潜在状态的速度场差异,实现对音频时序与结构的自监督学习,让模型掌握通用音频特征和宏观时域规律。
(二)基于双分支视频表示的有监督微调
1. 数据利用方式
仅使用真实FOA音频数据,延续掩码流匹配的训练框架,聚焦四通道的空间特性。
2. 模型强化过程
对真实FOA潜在序列采用更高概率的掩码,强化对声源方向(W/X/Y/Z四通道互补关系)的表征能力,在解码端提升高保真空间音频细节的重建效果。
3. 双分支结合机制
完成自监督预训练后,将模型与双分支视频编码器结合:
- 针对输入的360°全景视频,用冻结的MetaCLIP-Huge图像编码器提取全局特征
- 从同一视频裁取FOV局部视角,通过同一编码器获取局部细节表征
- 全局特征经最大池化后作为Transformer的全局条件
- 局部特征经时间上采样后与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件
4. 微调与输出流程
在保持预训练初始化参数基本走向的前提下,高效微调条件流场,从噪声中精准"雕刻"出符合视觉指示的FOA潜在轨迹。推理阶段只需采样学得的速度场,经VAE解码器恢复波形,即可输出与360°视频高度对齐、具备精确方向感的四通道空间音频。
四、应用场景探索
(一)虚拟现实(VR)与沉浸式体验
为VR内容生成与视觉场景高度匹配的空间音频,大幅增强用户沉浸感。
(二)360°视频配乐
为全景视频自动生成沉浸式音效,让观众获得更真实的听觉体验。
(三)智能语音助手领域
可集成到智能音箱、智能家电等智能家居设备中,实现语音控制与交互功能,支持用户通过语音指令控制家电开关、调节温度、查询信息等操作。
(四)机器人与自动驾驶领域
为这些系统提供更精准的声音定位和环境感知能力。