SonicGauss

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/AiEson2/SonicGauss

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含处理过的ObjectFolder 2.0和ObjectFolder Real数据，用于训练SonicGauss模型——一个基于3D高斯表示的位置感知物理声音合成框架。数据集内容包括：从物体扫描中提取的3D高斯点云PLY文件、不同位置的撞击声音记录、多视角渲染图像以及JSON格式的训练/验证分割文件。数据集统计显示：ObjectFolder 2.0包含1000个带有合成撞击声音的物体，ObjectFolder Real包含真实世界录制的多样化材料声音，总大小约为24.7GB（分割存档）。

创建时间：

2025-12-04

原始信息汇总

SonicGauss 数据集概述

基本信息

数据集名称: SonicGauss Dataset
发布者: AiEson2
许可证: cc-by-4.0
语言: 英语 (en), 中文 (zh)
标签: Audio, ImpactSound
规模分类: 100M<n<1B
总大小: 约 24.7 GB (分割存档)

数据集描述

该数据集包含用于训练 SonicGauss 模型的已处理 ObjectFolder 2.0 和 ObjectFolder Real 数据。SonicGauss 是一个用于 3D 高斯表示的位置感知物理声音合成框架。

数据集内容

数据集包含：

从物体扫描中提取的 3D 高斯泼溅 (3DGS) PLY 文件
不同位置录制的 撞击声音
多个视角的 渲染图像
JSON 格式的 训练/验证分割文件

数据集统计

ObjectFolder 2.0: 包含 1,000 个物体及其合成撞击声音
ObjectFolder Real: 包含真实世界录制的多种材料声音

数据集结构

datas/ ├── objectfolder_2.0_train.json ├── objectfolder_2.0_val.json ├── objectfolder_real_train.json ├── objectfolder_real_val.json ├── OF_Real/ │ └── ObjectFolderResults/ └── OF_2.0/ ├── audio_results/ # 撞击声音录音 (.wav) └── vision_results/ # 3DGS PLY 文件 (.ply)

使用方法

bash

使用 huggingface-cli 下载

pip install huggingface-hub huggingface-cli download AiEson2/SonicGauss --repo-type dataset --local-dir ./datas/

引用

如果使用此数据集，请引用： bibtex @inproceedings{wang2025sonicgauss, title={SonicGauss: Position-Aware Physical Sound Synthesis for 3D Gaussian Representations}, author={Wang, Chunshi and Li, Hongxing and Luo, Yawei}, booktitle={Proceedings of the 33rd ACM International Conference on Multimedia}, pages={10886--10895}, year={2025} }

@inproceedings{gao2023objectfolder, title={The objectfolder benchmark: Multisensory learning with neural and real objects}, author={Gao, Ruohan and Dou, Yiming and Li, Hao and Agarwal, Tanmay and Bohg, Jeannette and Li, Yunzhu and Fei-Fei, Li and Wu, Jiajun}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, pages={17276--17286}, year={2023} }

@inproceedings{gao2022objectfolder, title={Objectfolder 2.0: A multisensory object dataset for sim2real transfer}, author={Gao, Ruohan and Si, Zilin and Chang, Yen-Yu and Clarke, Samuel and Bohg, Jeannette and Fei-Fei, Li and Yuan, Wenzhen and Wu, Jiajun}, booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition}, pages={10598--10608}, year={2022} }

许可证说明

该数据集源自 ObjectFolder，并遵循相同的条款分发。有关许可证详情，请参考原始的 ObjectFolder 项目。

搜集汇总

数据集介绍

构建方式

SonicGauss数据集是在三维高斯表示与物理声音合成交叉领域的重要资源，其构建过程整合了ObjectFolder 2.0与ObjectFolder Real两个核心数据源。通过从物体扫描中提取三维高斯溅射（3DGS）的PLY文件，并结合不同位置录制的撞击声音，数据集实现了视觉与听觉模态的精确对齐。数据采集涵盖了合成与真实环境下的声音记录，并辅以多视角渲染图像，最终以JSON格式划分训练与验证集，确保了数据结构的系统性与完整性。

使用方法

使用SonicGauss数据集时，研究人员可通过Hugging Face Hub便捷下载，利用提供的训练与验证JSON文件进行模型训练与评估。数据集支持对SonicGauss等位置感知物理声音合成框架的直接应用，用户可基于三维高斯表示与对应音频数据，开发能够模拟真实物体撞击声的生成模型。数据集的标准化结构便于集成到现有机器学习流程中，推动三维视听感知领域的前沿探索。

背景与挑战

背景概述

在多媒体计算与跨模态感知研究领域，物理声音合成与三维视觉表征的融合正成为前沿探索方向。SonicGauss数据集于2025年由Chunshi Wang、Hongxing Li及Yawei Luo等研究人员构建，其核心研究问题在于如何为三维高斯表征实现位置感知的物理声音合成。该数据集基于斯坦福大学团队开发的ObjectFolder 2.0与ObjectFolder Real基准，通过整合三维高斯点云、多视角渲染图像及不同位置的撞击声录音，旨在推动视听联合建模与仿真到现实迁移的研究。其发布为三维场景的沉浸式音频生成提供了关键数据支撑，显著促进了计算机视觉、计算机听觉及机器人多感官学习领域的交叉进展。

当前挑战

SonicGauss数据集致力于解决三维物体物理声音合成的核心挑战，即如何依据物体的几何形态、材质属性及撞击位置，生成高保真且空间感知的声音。这一任务需克服声音传播的复杂物理建模、视听数据的高精度对齐，以及跨模态表征的联合优化等难题。在构建过程中，研究团队面临数据采集与处理的重大挑战，包括从真实物体扫描中提取三维高斯点云的精度保障、在不同空间点位录制撞击声时保持环境噪声的一致性，以及大规模多模态数据的有效组织与标注。此外，整合合成数据与真实录音以实现仿真到现实的平滑过渡，亦对数据集的均衡性与泛化能力提出了严格要求。

常用场景

经典使用场景

在计算机视觉与听觉的交叉领域，SonicGauss数据集为研究3D高斯表示下的物理声音合成提供了关键支撑。其经典使用场景集中于训练位置感知的声学模型，通过结合3D高斯溅射（3DGS）的几何文件与多位置撞击声音录音，使模型能够学习物体在三维空间中受撞击时产生声音的物理规律。这一过程通常涉及从多视角渲染图像中提取视觉特征，并与音频数据对齐，以实现高保真的声学模拟。

解决学术问题

该数据集有效解决了多模态感知中视听关联建模的若干核心学术问题。具体而言，它通过提供大规模、多材质的物体扫描与声音配对数据，促进了从合成到真实场景的跨域迁移学习，降低了物理声学建模对昂贵真实数据采集的依赖。其意义在于推动了神经声学合成技术的发展，使得基于几何表示的声学渲染成为可能，为虚拟现实与机器人交互等领域提供了更真实的听觉体验基础。

实际应用

在实际应用层面，SonicGauss数据集支撑了多种沉浸式技术与智能系统的开发。例如，在虚拟现实环境中，它可用于生成与三维物体交互时对应的空间化声音，增强用户的沉浸感；在机器人领域，则有助于训练机器人通过听觉理解物体属性或交互状态，提升其环境感知能力。此外，该数据集还能服务于游戏引擎的声效合成，实现动态、位置相关的高质量音效生成。

数据集最近研究