阿里通义OmniAudio：从360°视频生成空间音频的黑科技

文章 4周前 Midlight

4 0 0

一、OmniAudio究竟是什么？

OmniAudio是阿里巴巴通义实验室语音团队重磅推出的创新技术，能实现从360°视频直接生成空间音频（FOA），为虚拟现实与沉浸式娱乐场景打造更具真实感的音频体验。

为支撑模型训练，团队构建了大规模数据集Sphere360，内含超10.3万个视频片段，覆盖288种音频事件，总时长达到288小时。其训练过程分为两个关键阶段：

自监督coarse-to-fine流匹配预训练：基于大规模非空间音频资源开展自监督学习
基于双分支视频表示的有监督微调：强化模型对声源方向的表征能力

项目资源链接

项目官网：https://omniaudio-360v2sa.github.io/
Github仓库：https://github.com/liuhuadai/OmniAudio
arXiv技术论文：https://arxiv.org/pdf/2504.14906

二、OmniAudio核心功能

（一）空间音频生成能力

可直接从360°视频生成FOA音频，这是一种标准3D空间音频格式，能精准捕捉声音方向性，实现真实的3D音频再现。采用四通道（W、X、Y、Z）表示声音：

W通道：负责捕捉整体声压
X、Y、Z通道：分别对应前后、左右及垂直方向的声音信息
在头部旋转时，能确保声音定位的准确性不丢失。

（二）沉浸式体验升级

为VR及沉浸式娱乐领域带来全新可能，有效解决传统视频转音频技术主要生成非空间音频、无法满足沉浸式场景对3D声音定位需求的痛点。

三、OmniAudio技术原理

（一）自监督coarse-to-fine流匹配预训练

1. 数据处理策略

鉴于真实FOA数据稀缺，研究团队借助FreeSound、AudioSet、VGGSound等大规模非空间音频资源，将立体声转换为"伪FOA"格式：

W通道：左右声道之和
X通道：左右声道之差
Y、Z通道：直接置零

2. 模型训练流程

将转换后的"伪FOA"音频输入四通道VAE编码器获取潜在表示，以一定概率进行随机时间窗掩码，再将掩码后的潜在序列与完整序列一同作为条件输入流匹配模型。通过最小化掩码前后潜在状态的速度场差异，实现对音频时序与结构的自监督学习，让模型掌握通用音频特征和宏观时域规律。

（二）基于双分支视频表示的有监督微调

1. 数据利用方式

仅使用真实FOA音频数据，延续掩码流匹配的训练框架，聚焦四通道的空间特性。

2. 模型强化过程

对真实FOA潜在序列采用更高概率的掩码，强化对声源方向（W/X/Y/Z四通道互补关系）的表征能力，在解码端提升高保真空间音频细节的重建效果。

3. 双分支结合机制

完成自监督预训练后，将模型与双分支视频编码器结合：

针对输入的360°全景视频，用冻结的MetaCLIP-Huge图像编码器提取全局特征
从同一视频裁取FOV局部视角，通过同一编码器获取局部细节表征
全局特征经最大池化后作为Transformer的全局条件
局部特征经时间上采样后与音频潜在序列逐元素相加，作为逐步生成过程中的局部条件

4. 微调与输出流程

在保持预训练初始化参数基本走向的前提下，高效微调条件流场，从噪声中精准"雕刻"出符合视觉指示的FOA潜在轨迹。推理阶段只需采样学得的速度场，经VAE解码器恢复波形，即可输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

四、应用场景探索

（一）虚拟现实（VR）与沉浸式体验

为VR内容生成与视觉场景高度匹配的空间音频，大幅增强用户沉浸感。

（二）360°视频配乐

为全景视频自动生成沉浸式音效，让观众获得更真实的听觉体验。

（三）智能语音助手领域

可集成到智能音箱、智能家电等智能家居设备中，实现语音控制与交互功能，支持用户通过语音指令控制家电开关、调节温度、查询信息等操作。

（四）机器人与自动驾驶领域

为这些系统提供更精准的声音定位和环境感知能力。

GitHub

版权声明：Midlight 发表于 2025-06-04 20:22:46。
转载请注明：阿里通义OmniAudio：从360°视频生成空间音频的黑科技 | 程序员导航网

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

阿里通义OmniAudio：从360°视频生成空间音频的黑科技

一、OmniAudio究竟是什么？

项目资源链接

二、OmniAudio核心功能

（一）空间音频生成能力

（二）沉浸式体验升级

三、OmniAudio技术原理

（一）自监督coarse-to-fine流匹配预训练

1. 数据处理策略

2. 模型训练流程

（二）基于双分支视频表示的有监督微调

1. 数据利用方式

2. 模型强化过程

3. 双分支结合机制

4. 微调与输出流程

四、应用场景探索

（一）虚拟现实（VR）与沉浸式体验

（二）360°视频配乐

（三）智能语音助手领域

（四）机器人与自动驾驶领域

快手开源Auto Think：自动思考大模型的技术突破与应用场景

Fish Audio 全新力作 OpenAudio S1：重新定义语音生成模型的标杆

暂无评论

阿里通义OmniAudio：从360°视频生成空间音频的黑科技

一、OmniAudio究竟是什么？

项目资源链接

二、OmniAudio核心功能

（一）空间音频生成能力

（二）沉浸式体验升级

三、OmniAudio技术原理

（一）自监督coarse-to-fine流匹配预训练

1. 数据处理策略

2. 模型训练流程

（二）基于双分支视频表示的有监督微调

1. 数据利用方式

2. 模型强化过程

3. 双分支结合机制

4. 微调与输出流程

四、应用场景探索

（一）虚拟现实（VR）与沉浸式体验

（二）360°视频配乐

（三）智能语音助手领域

（四）机器人与自动驾驶领域

快手开源Auto Think：自动思考大模型的技术突破与应用场景

Fish Audio 全新力作 OpenAudio S1：重新定义语音生成模型的标杆

暂无评论

收藏至：