VAST: The Virtual Acoustic Space Traveler Dataset

Name: VAST: The Virtual Acoustic Space Traveler Dataset
Creator: 法国国家信息与自动化研究所雷恩-大西洋布列塔尼分部
Published: 2016-12-14 23:40:44
License: 暂无描述

arXiv2016-12-14 更新2024-06-21 收录

下载链接：

http://theVASTproject.inria.fr

下载链接

链接失效反馈

官方服务：

资源简介：

VAST数据集是由法国国家信息与自动化研究所雷恩-大西洋布列塔尼分部和印度理工学院坎普尔分校合作创建的，旨在通过虚拟声学空间旅行技术改善声音源定位。该数据集包含超过110,000个模拟房间脉冲响应（RIR），用于训练机器学习模型从音频特征映射到所需的音频属性。数据集设计考虑了多种室内环境，如办公室、大学和现代住宅，以确保其广泛的代表性。创建过程中使用了高效的C++/MATLAB房间声学模拟器，生成了各种声学环境的RIR。VAST数据集的应用领域包括声音源定位和双耳听觉，旨在解决传统基于到达时间差的声音定位方法的局限性。

The VAST dataset was collaboratively developed by the Rennes Bretagne-Atlantique branch of the French National Institute for Research in Computer Science and Automation (INRIA) and the Indian Institute of Technology Kanpur. It was created to enhance sound source localization via virtual acoustic space travel technologies. This dataset contains over 110,000 simulated room impulse responses (RIRs), which are utilized to train machine learning models for mapping audio features to target audio attributes. The dataset was designed to encompass a diverse range of indoor environments, including offices, university campuses, and modern residences, to ensure broad representativeness. An efficient C++/MATLAB room acoustics simulator was employed during the dataset development to generate RIRs for various acoustic environments. The application domains of the VAST dataset include sound source localization and binaural hearing, aiming to address the limitations of traditional sound localization methods based on time difference of arrival.

提供机构：

法国国家信息与自动化研究所雷恩-大西洋布列塔尼分部

创建时间：

2016-12-14

搜集汇总

数据集介绍

构建方式

在声源定位研究领域，传统方法常受限于物理模型的简化假设或特定场景的数据依赖。VAST数据集采用虚拟声学空间旅行范式，通过物理驱动的房间声学模拟器ROOMSIM生成大规模房间脉冲响应。该模拟器基于图像源法和雨扩散算法，精确模拟声波在封闭空间内的反射与散射效应。数据生成过程中，固定接收器为KEMAR人工头模型，高度设定为1.70米，并构建16种典型室内环境，涵盖不同尺寸、表面材料与混响特性。源位置以接收器为中心，在六个距离球面上按9度间隔均匀采样，同时引入随机偏移以避免对称性，最终形成超过11万条脉冲响应数据，总规模控制在6.4GB以内。

使用方法

该数据集主要用于训练数据驱动的声源定位映射模型。研究人员可将脉冲响应与自然声源卷积，生成包含多源、噪声及混响的合成音频场景。通过提取双耳听觉特征，如频域相位差与电平差，并利用高斯局部线性回归或深度学习等非线性映射方法，可建立从特征到声源三维位置参数的预测模型。训练后的模型能够直接应用于真实环境中的双耳录音系统，实现包括方位、仰角及距离在内的全维度声源定位。数据集的标准化格式与紧凑规模使其可在普通计算设备上高效处理，为听觉场景分析研究提供了可扩展的基准平台。

背景与挑战

背景概述

在声学与机器学习交叉领域，双耳声源定位技术旨在模拟人类通过双耳感知复杂声学场景的能力。VAST数据集由法国Inria研究所与印度理工学院坎普尔分校的研究团队于2016年共同创建，核心研究问题在于克服传统基于到达时间差（TDOA）方法的局限性，这些方法在非自由场、近场及多反射现实环境中表现欠佳。该数据集通过物理驱动的房间声学模拟器生成大规模虚拟房间脉冲响应，构建了一种称为虚拟声学空间旅行的新范式，使数据驱动的映射学习能够泛化至真实场景，从而推动机器人听觉、增强现实及智能声学系统的发展。

当前挑战

VAST数据集致力于解决双耳声源定位中的核心挑战：在复杂混响环境中实现三维声源位置（方位角、仰角、距离）的精确估计，超越传统方法仅能处理远场自由场条件的局限。构建过程中的挑战包括如何在有限计算资源下平衡数据集的规模与代表性，通过设计16种典型房间配置与表面材料来覆盖现实建筑声学特性，同时确保数据量控制在10GB以内以提升可用性。此外，模拟中需整合扩散效应以逼近真实声散射，并采用球形网格采样策略捕捉接收器位置与声源距离的耦合影响，避免因参数空间浩瀚而导致的采样不足或偏差。

常用场景

经典使用场景

在双耳听觉与声源定位研究领域，VAST数据集通过模拟大量室内房间脉冲响应，为机器学习模型提供了丰富的虚拟声学环境训练资源。该数据集最经典的使用场景在于支持基于数据驱动的声源定位方法，研究者可利用其生成的仿真双耳房间脉冲响应，训练非线性回归模型或深度神经网络，以映射音频特征到三维空间坐标，从而在复杂混响环境中实现精准的声源方位、仰角及距离估计。

解决学术问题

VAST数据集有效解决了传统声源定位方法中因自由场与远场假设限制而导致的性能瓶颈问题。通过提供涵盖多样房间尺寸、表面材料及接收器位置的仿真数据，它使得机器学习模型能够克服到达时间差方法在室内环境中的局限性，实现对声源三维位置的全方位估计，并显著提升了在真实混响场景下的泛化能力，推动了数据驱动声学空间学习范式的发展。

实际应用

在实际应用层面，VAST数据集为智能机器人、助听设备及虚拟现实系统的听觉感知模块提供了关键技术支持。基于该数据集训练的模型可使双耳听觉系统在办公室、教室等真实室内环境中，鲁棒地定位声源并解析复杂声场，进而增强人机交互的自然性、提升语音分离质量，并为沉浸式音频体验的构建奠定声学基础。

数据集最近研究