Sphere360

Name: Sphere360
Creator: 浙江大学, 同济实验室, 香港科技大学, 南洋理工大学
Published: 2025-04-21 15:21:28
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://github.com/liuhuadai/OmniAudio

下载链接

链接失效反馈

官方服务：

资源简介：

Sphere360是一个专为360度视频到空间音频生成任务设计的大型数据集，由浙江大学等机构创建。该数据集包含超过103,000对真实世界的音频和360度视频剪辑，总时长达到288小时，覆盖了广泛的真实世界声学环境和噪声条件。数据集通过精心设计的数据收集和清洗流程构建，保证了视频和音频样本的高质量，适用于360度视频到空间音频生成的研究。

Sphere360 is a large-scale dataset specifically designed for the task of 360-degree video-to-spatial audio generation, created by institutions including Zhejiang University. This dataset contains over 103,000 pairs of real-world audio and 360-degree video clips, with a total duration of 288 hours, covering a wide range of real-world acoustic environments and noise conditions. The dataset is constructed through a meticulously designed data collection and cleaning pipeline, ensuring the high quality of both video and audio samples, and is suitable for research on 360-degree video-to-spatial audio generation.

提供机构：

浙江大学, 同济实验室, 香港科技大学, 南洋理工大学

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

Sphere360数据集的构建采用了半自动化的高质量数据收集与清洗流程。研究团队首先通过精心设计的搜索策略从YouTube平台获取360度视频与空间音频配对数据，利用YouTube Data API和yt-dlp工具进行技术过滤，确保视频支持360度投影和四声道FOA音频格式。数据收集采用两阶段策略：先通过频道级爬取获取高频出现的高质量内容，再通过视频级爬取补充多样性。在数据清洗阶段，开发了基于MSE的静止视频检测、dBFS阈值的声音片段筛选、SenseVoice语音识别过滤以及Imagebind音频-视觉对齐评估等多层次质量控制机制，最终构建了包含103,000个10秒视频片段、覆盖288小时时长的数据集。

特点

Sphere360作为首个专为360度视频到空间音频生成任务设计的大规模数据集，具有三个显著特征：其全景视觉与一阶Ambisonics(FOA)音频的精确时空对齐特性，为三维声场重建提供了完整的环境线索；数据覆盖288种真实世界声学事件，包含复杂的环境噪声和动态声源移动场景，具有丰富的声学多样性；通过严格的半自动化清洗流程，确保了音频质量（信噪比>35dB）和视觉-听觉相关性（Imagebind相似度>2），相比现有数据集具有更高的信噪比和更精确的空间标注。数据集特别保留了声源在摄像机后方移动的典型场景，这对传统有限视场视频的音频生成方法具有挑战性。

使用方法

该数据集支持端到端的360度视频到空间音频生成任务，典型使用流程包含三个环节：首先通过四通道变分自编码器(VAE)将FOA音频编码为潜在表征，其WXYZ通道分别处理全向声压和三维方向信息；随后采用双分支架构处理视频输入，其中全局分支分析ERP格式的全景视频，局部分支提取特定视场(FOV)特征，通过扩散变换器实现跨模态特征融合；最后结合自监督的流匹配预训练策略，利用大规模非空间音频数据提升模型泛化能力。评估时建议采用包含空间角度误差(Δabsθ/Δabsφ)和Fréchet音频距离的多维度指标，并配合人类主观评分(MOS)验证生成音频的空间感知质量。

背景与挑战

背景概述

Sphere360数据集由浙江大学与阿里巴巴集团通义实验室等机构于2025年联合发布，旨在解决360度视频与空间音频同步生成的学术空白。作为首个面向360V2SA任务的大规模数据集，其包含10.3万条真实场景视频片段，总时长288小时，覆盖288类音频事件。该数据集通过半自动化管道从YouTube采集并清洗，采用一阶Ambisonics（FOA）格式编码三维空间音频，突破了传统视音频生成技术仅支持单声道/立体声的局限。其创新性地将全景视觉信息与空间声场定位相结合，为虚拟现实、沉浸式媒体等领域提供了关键研究基础设施，相关成果发表于计算机视觉与音频处理交叉领域的顶级会议。

当前挑战

领域挑战方面，Sphere360需解决三维声场重建中声源方向性建模（如FOA四通道分离）、全景视野与多声源空间对应关系建模等核心问题。构建挑战具体体现在：1)数据采集需平衡360°视频与FOA音频的同步性，原始素材中仅0.4%同时满足两种格式；2)清洗过程中需消除静态画面（占比12%）、静音片段（7.3%）及视听失配内容（23%）；3)标注复杂度高，单个视频需同步标注声源方位角θ、仰角ϕ及声压级等三维参数。这些挑战使得数据集构建耗时达18个月，较传统视听数据集成本提升5倍。

常用场景

经典使用场景

Sphere360数据集在360度视频到空间音频生成（360V2SA）任务中展现出卓越的应用价值。通过提供大规模的真实世界360度视频与一阶Ambisonics（FOA）音频配对数据，该数据集为研究全景视觉与三维音频的同步关系奠定了坚实基础。其典型应用场景包括虚拟现实环境中的沉浸式音效合成、全景视频的自动配音生成，以及智能监控系统中的多模态事件检测，为突破传统视音频生成技术局限于固定视角和单声道输出的瓶颈提供了关键数据支撑。

衍生相关工作

围绕Sphere360数据集已涌现出多项创新研究：OmniAudio框架开创性地采用双分支架构处理全景与局部视角信息；DiffSAGe等研究将扩散模型引入空间音频生成；ViSAGe工作探索了基于视觉线索的声场重建技术。这些衍生成果不仅完善了视听生成的技术体系，更催生了Sphere360-Bench标准化评估基准，推动该领域从算法创新到性能评估的完整生态建设。

数据集最近研究