susanliang/RWAVS
收藏Hugging Face2023-12-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/susanliang/RWAVS
下载链接
链接失效反馈官方服务:
资源简介:
RWAVS(Real-World Audio-Visual Scene)数据集是一个用于真实世界音频-视觉场景合成的数据集。该数据集包含13个场景,每个场景中提供了训练和评估所需的相机姿态、视频帧、音频文件以及视觉和深度特征等。具体文件包括:`transforms_train.json`(训练相机姿态)、`transforms_val.json`(评估相机姿态)、`transforms_scale_train.json`(归一化训练相机姿态)、`transforms_scale_val.json`(归一化评估相机姿态)、`frames`(视频帧)、`source_syn_re.wav`(单声道音频)、`binaural_syn_re.wav`(双声道音频)、`feats_train.pkl`(训练视觉和深度特征)、`feats_val.pkl`(推理视觉和深度特征)以及`position.json`(声源归一化3D坐标)。数据集中的音频文件已同步并重采样至22050 Hz。需要注意的是,某些帧可能没有对应的相机姿态,因为COLMAP无法估计这些帧的相机参数。
RWAVS(Real-World Audio-Visual Scene)数据集是一个用于真实世界音频-视觉场景合成的数据集。该数据集包含13个场景,每个场景中提供了训练和评估所需的相机姿态、视频帧、音频文件以及视觉和深度特征等。具体文件包括:`transforms_train.json`(训练相机姿态)、`transforms_val.json`(评估相机姿态)、`transforms_scale_train.json`(归一化训练相机姿态)、`transforms_scale_val.json`(归一化评估相机姿态)、`frames`(视频帧)、`source_syn_re.wav`(单声道音频)、`binaural_syn_re.wav`(双声道音频)、`feats_train.pkl`(训练视觉和深度特征)、`feats_val.pkl`(推理视觉和深度特征)以及`position.json`(声源归一化3D坐标)。数据集中的音频文件已同步并重采样至22050 Hz。需要注意的是,某些帧可能没有对应的相机姿态,因为COLMAP无法估计这些帧的相机参数。
提供机构:
susanliang
原始信息汇总
RWAVS 数据集
我们提供 Real-World Audio-Visual Scene (RWAVS) 数据集。
-
数据集可以从 Hugging Face 仓库下载。
-
下载数据集后,可以解压缩
RWAVS_Release.zip。unzip RWAVS_Release.zip cd release/
-
数据集的目录结构如下:
./release/ ├── 1 │ ├── binaural_syn_re.wav │ ├── feats_train.pkl │ ├── feats_val.pkl │ ├── frames │ │ ├── 00001.png | | ├── ... │ │ ├── 00616.png │ ├── source_syn_re.wav │ ├── transforms_scale_train.json │ ├── transforms_scale_val.json │ ├── transforms_train.json │ └── transforms_val.json ├── ... ├── 13 └── position.json
数据集包含 13 个场景,索引从 1 到 13。每个场景提供以下文件:
transforms_train.json:用于训练的相机姿态。transforms_val.json:用于评估的相机姿态。数据被分为train和val子集,其中 80% 用于训练,其余用于评估。transforms_scale_train.json:用于训练的归一化相机姿态。我们将 3D 坐标归一化到 $[-1, 1]^3$。transforms_scale_val.json:用于评估的归一化相机姿态。frames:每个相机姿态对应的视频帧。source_syn_re.wav:声源发出的单通道音频。binaural_syn_re.wav:双耳麦克风捕捉的双通道音频。我们将source_syn_re.wav和binaural_syn_re.wav同步并重采样到 22050 Hz。feats_train.pkl:每个相机姿态提取的视觉和深度特征,用于训练。我们依赖 V-NeRF 为每个相机姿态合成视觉和深度图像,然后使用预训练的编码器从渲染图像中提取特征。feats_val.pkl:每个相机姿态提取的视觉和深度特征,用于推理。position.json:声源的归一化 3D 坐标。
请注意,某些帧可能没有对应的相机姿态,因为 COLMAP 无法估计这些帧的相机参数。
搜集汇总
数据集介绍

构建方式
在音频-视觉融合研究领域,真实世界场景数据的采集与标注构成了技术突破的基石。RWAVS数据集的构建过程体现了严谨的系统性:研究团队通过采集13个真实场景的同步音频与视频序列,利用COLMAP技术估计相机姿态,并依据80%与20%的比例划分训练集与验证集。为确保数据一致性,单声道源音频与双声道双耳录音均经过同步对齐并重采样至22050赫兹;同时,通过V-NeRF模型合成视觉与深度图像,并借助预训练编码器提取特征,最终形成包含标准化三维坐标、相机参数及多模态特征的结构化数据集。
特点
该数据集的核心特点在于其多模态对齐与真实世界复杂性。数据集囊括了13个独立场景,每个场景均提供精确时空对齐的视觉帧、双耳音频、相机姿态及声音源三维坐标。尤为突出的是,数据集不仅包含原始感官数据,还集成了由神经辐射场生成的视觉与深度特征,以及经过归一化处理的相机参数,为音频-视觉联合建模提供了多层次、高一致性的研究素材。部分帧因相机参数估计失败而缺失对应姿态,这一特性亦真实反映了实际数据采集过程中的技术挑战。
使用方法
为高效利用该数据集进行研究,用户需首先下载并解压压缩包,进入release目录后即可按场景索引访问数据。每个场景目录内,transforms_train.json与transforms_val.json分别提供训练与评估所需的相机姿态;frames文件夹存储对应图像序列,而source_syn_re.wav和binaural_syn_re.wav则构成音频研究基础。研究人员可结合预提取的特征文件feats_train.pkl与feats_val.pkl,直接进行神经场训练与推理,亦可通过position.json中的标准化声源坐标探索空间音频合成任务。数据集的结构化设计支持端到端的音频-视觉场景合成与跨模态分析。
背景与挑战
背景概述
在神经辐射场(NeRF)技术蓬勃发展的背景下,多模态场景合成成为计算机视觉与听觉交叉领域的前沿课题。由Susan Liang、Chao Huang等研究人员于2023年构建的RWAVS数据集,旨在推动真实世界视听场景的联合建模与合成研究。该数据集由罗切斯特大学团队发布,并作为AV-NeRF模型的核心支撑,其核心研究问题聚焦于如何从稀疏的视听观测数据中,学习能够同步生成高质量视觉画面与空间化音频的连续神经场表示。这一工作不仅扩展了NeRF在听觉维度的应用边界,也为沉浸式媒体、机器人环境感知等方向提供了关键的数据基础。
当前挑战
RWAVS数据集致力于解决真实世界视听场景合成这一复杂问题,其首要挑战在于如何精确对齐与同步多模态信号,尤其是在动态环境中实现视觉帧与双耳音频的空间一致性建模。数据构建过程中,团队面临采集设备标定、复杂声学环境干扰以及相机姿态估计失败等多重困难,例如依赖COLMAP进行运动恢复时,部分帧因特征匹配不足而无法获得有效相机参数,导致数据存在缺失。此外,将三维坐标归一化至统一空间并提取有效的视觉与深度特征,亦对数据处理的鲁棒性与表征能力提出了较高要求。
常用场景
经典使用场景
在音频-视觉神经渲染领域,RWAVS数据集为研究者提供了真实世界场景中同步的视觉帧与双耳音频数据,其经典使用场景在于训练和评估如AV-NeRF等神经场模型,以合成具有空间音频的沉浸式三维场景。通过结合相机姿态、视觉特征及声源位置信息,该数据集支持模型学习从任意视角生成逼真的视听内容,为多模态感知研究奠定了数据基础。
实际应用
在实际应用中,RWAVS数据集可赋能虚拟现实与增强现实系统的开发,通过生成具有空间音频的沉浸式场景,提升用户体验的真实感。此外,它在机器人导航、环境感知以及智能监控领域也有潜在价值,帮助系统基于视听信号进行更精准的环境理解和交互,为多模态人工智能技术的落地提供了可靠的数据支撑。
衍生相关工作
围绕RWAVS数据集,已衍生出如AV-NeRF等经典工作,这些研究探索了神经场在视听合成中的联合优化方法。后续工作可能进一步扩展至动态场景建模、跨模态迁移学习,或结合更先进的编码器提升特征提取效率,持续推动音频-视觉神经渲染领域的技术前沿,为多模态人工智能的创新注入动力。
以上内容由遇见数据集搜集并总结生成



