Pyramic Dataset

github2024-03-28 更新2024-05-31 收录

下载链接：

https://github.com/fakufaku/pyramic-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Pyramic数据集包含使用48通道麦克风阵列在消声室中录制的3D声源音频。录音包括8种不同的样本（2x扫频，1x噪声，5x语音），重复180个角度（每2度）和3个不同的高度。该数据集适用于评估阵列处理算法在实际录音中的性能，并可用于2D和3D场景。

The Pyramic dataset comprises 3D sound source audio recordings captured in an anechoic chamber using a 48-channel microphone array. The recordings include eight distinct sample types (2x sweeps, 1x noise, 5x speech), repeated across 180 angles (at 2-degree intervals) and three different heights. This dataset is suitable for evaluating the performance of array processing algorithms with real-world recordings and can be utilized in both 2D and 3D scenarios.

创建时间：

2018-03-27

原始信息汇总

数据集概述

名称: Pyramic Dataset

描述: 该数据集包含使用Pyramic 48通道麦克风阵列在消声室内录制的音频记录。记录包括8种不同的样本（2x扫频，1x噪声，5x语音），重复180个角度（每2度）和3个不同高度。

音频样本类型:

线性和指数扫频
噪声序列
2x男性语音和3x女性语音

应用:

方向到达(DOA)估计
波束形成
源分离
阵列校准
生成真实的房间脉冲响应

数据集内容:

原始录音（压缩或未压缩）和分割录音
所有麦克风对每个源位置的脉冲响应

数据集版本:

压缩、分割和脉冲响应：10.5281/zenodo.1209563
仅wav格式的原始录音：10.5281/zenodo.1209005

数据集下载:

分割的录音样本（wav格式，22GB）
脉冲响应（280MB）
压缩的原始录音（tta格式，18GB）
原始录音（wav格式，38GB）

文件命名规则:

原始录音：recordings/pyramic_spkrX_all_samples_Y.[wav|tta]
分割文件：segmented/<sample_name>/<sample_name>_spkrX_angleZ.wav

数据处理:

使用Python 3.6进行分割、解压缩和校准
使用True Audio (TTA) 格式进行文件压缩
使用Wiener反卷积从指数扫频测量中恢复脉冲响应

校准:

手动测量麦克风和声源位置
使用盲校准方法改进位置测量
使用Procrustes变换优化位置数据

实验协议: 详细描述在PROTOCOL.md中，提供机器可读的JSON版本。

麦克风和扬声器位置:

麦克风阵列放置使得四面体顶部平放
三个扬声器放置在距离阵列3.5m至4m的位置，仰角分别为75度（高），90度（中），105度（低）
阵列围绕垂直轴中心旋转360度，每次旋转2度

搜集汇总

数据集介绍

构建方式

Pyramic数据集的构建基于48通道麦克风阵列在消声室中的录音实验。实验过程中，阵列在三个不同高度上以每2度的间隔旋转180度，录制了8种不同的音频样本，包括线性扫频、指数扫频、噪声序列以及男女声语音。通过这种设计，数据集能够捕捉到三维声源在不同角度和高度下的声学特性，为阵列处理算法的性能评估提供了丰富的实验数据。

特点

Pyramic数据集的特点在于其高维度和多样性。数据集不仅包含了48通道的原始录音，还提供了分段录音和每个麦克风在不同声源位置下的脉冲响应。这种多维度的数据设计使得该数据集能够支持多种阵列处理算法的研究，如波达方向估计、波束成形、声源分离以及阵列校准。此外，数据集还通过盲校准方法优化了声源和麦克风的位置信息，进一步提升了数据的精确性和实用性。

使用方法

Pyramic数据集的使用方法灵活多样，用户可以根据需求选择下载分段录音、原始录音或脉冲响应数据。数据集提供了详细的文档和代码，用户可以通过GitHub获取最新的资源。下载后，用户可以使用Python脚本进行数据解压缩、分段处理以及校准操作。数据集还支持多种音频处理算法的直接应用，如通过Wiener反卷积获取脉冲响应，或使用盲校准算法优化声源位置。这些工具和方法使得用户能够高效地利用数据集进行声学研究和算法开发。

背景与挑战

背景概述

Pyramic数据集由Robin Scheibler及其团队于2018年创建，旨在为阵列信号处理算法提供高质量的实验数据。该数据集在无回声室中使用48通道的Pyramic麦克风阵列进行录制，涵盖了180个角度和3个不同高度的音频样本，包括线性扫频、指数扫频、噪声序列以及男女声语音。Pyramic数据集的核心研究问题在于评估阵列处理算法在真实环境中的性能，特别是针对类似于移动设备中使用的MEMS麦克风的非理想特性。该数据集在声源定位、波束成形、声源分离和阵列校准等领域具有广泛的应用，为相关研究提供了宝贵的实验数据。

当前挑战

Pyramic数据集在构建过程中面临多重挑战。首先，数据采集需要在无回声室中进行，以确保音频信号的纯净性，这对实验环境的要求极高。其次，由于数据集包含大量角度和高度的音频样本，数据采集和处理的工作量巨大，且需要精确的校准和分段处理。此外，数据集的压缩和存储也面临技术难题，特别是在保证数据完整性的同时减少存储空间。在应用层面，Pyramic数据集需要解决如何在复杂环境中准确估计声源方向、优化波束成形算法以及实现高效的声源分离等问题，这些都对算法的鲁棒性和计算效率提出了较高要求。

常用场景

经典使用场景

Pyramic数据集在声学信号处理领域具有广泛的应用，尤其是在多通道麦克风阵列的性能评估中。该数据集通过在不同角度和高度下录制多种声源信号，为研究者提供了丰富的实验数据。经典的使用场景包括方向估计（DOA）、波束成形、声源分离以及阵列校准等算法的测试与优化。通过子采样48个麦克风，研究者可以模拟多种阵列配置，从而验证算法在不同场景下的鲁棒性和准确性。

衍生相关工作

Pyramic数据集衍生了许多经典的研究工作。例如，基于该数据集的方向估计和波束成形算法研究为多通道信号处理领域提供了新的思路。此外，研究者利用数据集中的多角度录制数据，开发了更高效的声源分离和阵列校准算法。这些工作不仅推动了声学信号处理技术的发展，还为相关领域的应用提供了理论支持。

数据集最近研究