five

Pyramic Dataset|音频处理数据集|声源定位数据集

收藏
github2024-03-28 更新2024-05-31 收录
音频处理
声源定位
下载链接:
https://github.com/fakufaku/pyramic-dataset
下载链接
链接失效反馈
资源简介:
Pyramic数据集包含使用48通道麦克风阵列在消声室中录制的3D声源音频。录音包括8种不同的样本(2x扫频,1x噪声,5x语音),重复180个角度(每2度)和3个不同的高度。该数据集适用于评估阵列处理算法在实际录音中的性能,并可用于2D和3D场景。

The Pyramic dataset comprises 3D sound source audio recordings captured in an anechoic chamber using a 48-channel microphone array. The recordings include eight distinct sample types (2x sweeps, 1x noise, 5x speech), repeated across 180 angles (at 2-degree intervals) and three different heights. This dataset is suitable for evaluating the performance of array processing algorithms with real-world recordings and can be utilized in both 2D and 3D scenarios.
创建时间:
2018-03-27
原始信息汇总

数据集概述

名称: Pyramic Dataset

描述: 该数据集包含使用Pyramic 48通道麦克风阵列在消声室内录制的音频记录。记录包括8种不同的样本(2x扫频,1x噪声,5x语音),重复180个角度(每2度)和3个不同高度。

音频样本类型:

  • 线性和指数扫频
  • 噪声序列
  • 2x男性语音和3x女性语音

应用:

  • 方向到达(DOA)估计
  • 波束形成
  • 源分离
  • 阵列校准
  • 生成真实的房间脉冲响应

数据集内容:

  • 原始录音(压缩或未压缩)和分割录音
  • 所有麦克风对每个源位置的脉冲响应

数据集版本:

数据集下载:

  • 分割的录音样本(wav格式,22GB)
  • 脉冲响应(280MB)
  • 压缩的原始录音(tta格式,18GB)
  • 原始录音(wav格式,38GB)

文件命名规则:

  • 原始录音:recordings/pyramic_spkrX_all_samples_Y.[wav|tta]
  • 分割文件:segmented/<sample_name>/<sample_name>_spkrX_angleZ.wav

数据处理:

  • 使用Python 3.6进行分割、解压缩和校准
  • 使用True Audio (TTA) 格式进行文件压缩
  • 使用Wiener反卷积从指数扫频测量中恢复脉冲响应

校准:

  • 手动测量麦克风和声源位置
  • 使用盲校准方法改进位置测量
  • 使用Procrustes变换优化位置数据

实验协议: 详细描述在PROTOCOL.md中,提供机器可读的JSON版本。

麦克风和扬声器位置:

  • 麦克风阵列放置使得四面体顶部平放
  • 三个扬声器放置在距离阵列3.5m至4m的位置,仰角分别为75度(高),90度(中),105度(低)
  • 阵列围绕垂直轴中心旋转360度,每次旋转2度
AI搜集汇总
数据集介绍
main_image_url
构建方式
Pyramic数据集的构建基于48通道麦克风阵列在消声室中的录音实验。实验过程中,阵列在三个不同高度上以每2度的间隔旋转180度,录制了8种不同的音频样本,包括线性扫频、指数扫频、噪声序列以及男女声语音。通过这种设计,数据集能够捕捉到三维声源在不同角度和高度下的声学特性,为阵列处理算法的性能评估提供了丰富的实验数据。
特点
Pyramic数据集的特点在于其高维度和多样性。数据集不仅包含了48通道的原始录音,还提供了分段录音和每个麦克风在不同声源位置下的脉冲响应。这种多维度的数据设计使得该数据集能够支持多种阵列处理算法的研究,如波达方向估计、波束成形、声源分离以及阵列校准。此外,数据集还通过盲校准方法优化了声源和麦克风的位置信息,进一步提升了数据的精确性和实用性。
使用方法
Pyramic数据集的使用方法灵活多样,用户可以根据需求选择下载分段录音、原始录音或脉冲响应数据。数据集提供了详细的文档和代码,用户可以通过GitHub获取最新的资源。下载后,用户可以使用Python脚本进行数据解压缩、分段处理以及校准操作。数据集还支持多种音频处理算法的直接应用,如通过Wiener反卷积获取脉冲响应,或使用盲校准算法优化声源位置。这些工具和方法使得用户能够高效地利用数据集进行声学研究和算法开发。
背景与挑战
背景概述
Pyramic数据集由Robin Scheibler及其团队于2018年创建,旨在为阵列信号处理算法提供高质量的实验数据。该数据集在无回声室中使用48通道的Pyramic麦克风阵列进行录制,涵盖了180个角度和3个不同高度的音频样本,包括线性扫频、指数扫频、噪声序列以及男女声语音。Pyramic数据集的核心研究问题在于评估阵列处理算法在真实环境中的性能,特别是针对类似于移动设备中使用的MEMS麦克风的非理想特性。该数据集在声源定位、波束成形、声源分离和阵列校准等领域具有广泛的应用,为相关研究提供了宝贵的实验数据。
当前挑战
Pyramic数据集在构建过程中面临多重挑战。首先,数据采集需要在无回声室中进行,以确保音频信号的纯净性,这对实验环境的要求极高。其次,由于数据集包含大量角度和高度的音频样本,数据采集和处理的工作量巨大,且需要精确的校准和分段处理。此外,数据集的压缩和存储也面临技术难题,特别是在保证数据完整性的同时减少存储空间。在应用层面,Pyramic数据集需要解决如何在复杂环境中准确估计声源方向、优化波束成形算法以及实现高效的声源分离等问题,这些都对算法的鲁棒性和计算效率提出了较高要求。
常用场景
经典使用场景
Pyramic数据集在声学信号处理领域具有广泛的应用,尤其是在多通道麦克风阵列的性能评估中。该数据集通过在不同角度和高度下录制多种声源信号,为研究者提供了丰富的实验数据。经典的使用场景包括方向估计(DOA)、波束成形、声源分离以及阵列校准等算法的测试与优化。通过子采样48个麦克风,研究者可以模拟多种阵列配置,从而验证算法在不同场景下的鲁棒性和准确性。
衍生相关工作
Pyramic数据集衍生了许多经典的研究工作。例如,基于该数据集的方向估计和波束成形算法研究为多通道信号处理领域提供了新的思路。此外,研究者利用数据集中的多角度录制数据,开发了更高效的声源分离和阵列校准算法。这些工作不仅推动了声学信号处理技术的发展,还为相关领域的应用提供了理论支持。
数据集最近研究
最新研究方向
在声学信号处理领域,Pyramic数据集因其48通道麦克风阵列在消声室中的高质量录音而备受关注。该数据集的最新研究方向主要集中在三维声源定位、波束成形和声源分离等算法的性能评估与优化。随着移动设备中MEMS麦克风的广泛应用,研究如何利用该数据集模拟真实环境下的声学特性,已成为当前的热点。此外,结合图像源模型生成逼真的房间脉冲响应,为虚拟现实和增强现实中的声学环境建模提供了新的可能性。该数据集的多角度、多高度录音特性,为三维声场重建和声源定位算法的验证提供了丰富的数据支持,推动了声学信号处理技术的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录