SONOSCENE360

Name: SONOSCENE360
Creator: 马里兰大学帕克分校
Published: 2026-03-31 01:57:47
License: 暂无描述

arXiv2026-03-31 更新2026-04-01 收录

下载链接：

https://humathe.github.io/sonoworld/

下载链接

链接失效反馈

官方服务：

资源简介：

SONOSCENE360是由马里兰大学帕克分校团队构建的创新型音频-视觉场景数据集，包含68条经过严格校准的360°全景视频与Ambisonic空间音频配对数据，覆盖喷泉、厨房等六类真实场景。该数据集通过专业设备（Insta360 X5相机和RØDE NT-SF1麦克风）采集，标注了声源的语义标签、方向描述及空间坐标，为3D音频-视觉联合生成任务提供基准评估。其核心价值在于首次实现了视觉场景几何结构与空间声场的精准对齐，支持自由视点探索与跨模态语义一致性研究，可应用于VR沉浸式体验、单样本声学学习等前沿领域。

SONOSCENE360 is an innovative audio-visual scene dataset constructed by the team from the University of Maryland, College Park. It contains 68 pairs of rigorously calibrated 360° panoramic videos and Ambisonic spatial audio data, covering six types of real-world scenes including fountains and kitchens. Collected via professional equipment: the Insta360 X5 camera and the RØDE NT-SF1 microphone, the dataset is annotated with semantic labels, directional descriptions and spatial coordinates of sound sources, serving as a benchmark for evaluating 3D audio-visual joint generation tasks. Its core value lies in the first precise alignment between the geometric structure of visual scenes and spatial sound fields, which supports free viewpoint exploration and cross-modal semantic consistency research. It can be applied to cutting-edge fields such as VR immersive experiences and one-shot acoustic learning.

提供机构：

马里兰大学帕克分校

创建时间：

2026-03-31

搜集汇总

数据集介绍

构建方式

在三维视听场景生成领域，SONOSCENE360数据集的构建体现了严谨的工程设计与多模态数据采集的融合。该数据集通过部署Insta360 X5相机与RØDE NT-SF1一阶Ambisonics麦克风，在六个真实世界场景中同步捕获了68段360度全景视频与空间音频片段。为确保视听数据的几何对齐，研究团队实施了精细的标定流程：利用AprilTag标记板进行初始外参估计，并通过人工标注细化麦克风的方位角与俯仰角，从而在相机坐标系与世界坐标系之间建立了高精度的空间映射。这种标定方法为后续评估生成模型的空间一致性提供了可靠的基准真值。

特点

SONOSCENE360数据集的核心特征在于其首次为单图像到三维视听场景生成任务提供了系统化的评估基准。数据集涵盖喷泉、厨房、河流等多种声学环境，每个场景均包含经过空间标定的全景视觉数据与一阶Ambisonics格式的声场记录。尤为重要的是，数据集提供了声音源的语义标注、方向描述及声学特性说明，使得评估能够同时从空间相干性与语义对齐性两个维度展开。这种多模态、多角度的数据结构，为量化生成音频的方位误差、球面能量分布以及语义保真度奠定了坚实基础。

使用方法

该数据集主要服务于IMAGE2AVSCENE任务的算法评估与比较研究。使用者可基于提供的全景视频与Ambisonics音频，计算方向到达角误差、球面能量图相关系数等空间指标，以衡量生成声场与真实录音在几何上的匹配程度。同时，借助CLAP模型对方向性单声道音频进行编码，能够计算文本-音频相似度与音频-音频相似度，从而评估生成声音与视觉语义的一致性。此外，数据集的标定参数允许研究者将生成的三维场景与真实声场置于统一坐标系下分析，为模型优化提供了可量化的反馈机制。

背景与挑战

背景概述

SONOSCENE360是由马里兰大学帕克分校的研究团队于2026年构建的音频-视觉场景数据集，旨在支撑IMAGE2AVSCENE这一新兴任务的研究。该任务的核心目标是从单张RGB图像生成可探索的三维视听场景，不仅重建视觉几何结构，还需合成与场景语义及几何对齐的空间声场。数据集的创建标志着沉浸式多媒体生成领域从纯视觉建模向多模态感知的重要演进，为虚拟现实、增强现实及机器人环境理解等应用提供了关键的评估基准。其影响力在于首次系统性地将全景视频与一阶环绕声录音进行校准配对，为三维空间音频生成的质量评估建立了可量化的语义与空间度量体系。

当前挑战

SONOSCENE360所针对的IMAGE2AVSCENE任务面临多重挑战。在领域层面，需解决从单张图像联合推断三维视觉场景与空间声场的复杂问题，这要求模型具备跨模态的场景理解能力，能够识别潜在声源、推断其声学特性及三维空间分布，并合成符合物理传播规律的异质声源组合。在构建过程中，数据采集需克服全景相机与环绕声麦克风的空间标定难题，确保视听信号在几何坐标系中的精确对齐；同时，真实场景中声源的语义标注与方向描述需要人工精细标注，以支撑后续的语义一致性评估。此外，数据集的规模受限于高质量空间音频采集设备的可用性与场景多样性，需在有限样本下保证评估的统计可靠性。

常用场景

经典使用场景

在三维音频-视觉场景生成领域，SONOSCENE360数据集为从单张图像生成可探索的沉浸式环境提供了关键评估基准。该数据集通过精心校准的360度全景视频与一阶环绕声录音，为研究者验证空间音频与视觉内容的几何及语义对齐度奠定了坚实基础。其经典应用场景集中于评估如SONOWORLD等框架在生成导航式三维场景时，能否同步合成符合物理规律的空间声场，从而推动音频-视觉联合生成任务的前沿探索。

实际应用

在虚拟现实与增强现实领域，SONOSCENE360数据集支撑了实时交互式音频-视觉场景的生成与应用。基于该数据集开发的系统能够将静态图像转化为可自由导航的三维环境，并合成与场景元素同步的空间化声音，例如瀑布声随视角接近而增强、鸟鸣声从树冠方向传来。此类技术已初步应用于沉浸式内容创作、远程虚拟导览以及交互式娱乐体验中，为用户提供多感官一致的沉浸感，显著提升了虚拟环境的真实性与感染力。

衍生相关工作

围绕SONOSCENE360数据集，学术界衍生出一系列经典研究工作，进一步拓展了三维音频-视觉学习的边界。例如，基于其评估框架的SONOWORLD被扩展至单次房间声学学习任务，通过可微分渲染器从少量观测中推断空间声学参数；同时，该数据集启发了音频-视觉空间源分离的新方法，利用视觉布局引导混合空间音频的分解。这些工作不仅巩固了数据集在生成任务中的基准地位，还将其影响力延伸至神经声场建模、跨模态分离等新兴研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集