GenDARA 2025 Challenge Dataset
收藏github2025-01-15 更新2025-01-20 收录
下载链接:
https://github.com/linjac/GenDARA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含20个不同房间的房间脉冲响应(RIR)数据,用于生成增强数据以支持说话者距离估计(SDE)等下游任务。数据集包括单通道RIR、8阶高阶Ambisonics RIR(HOA-RIR)、标记的源和接收器位置以及房间的3D模型。
This dataset contains room impulse response (RIR) data from 20 distinct rooms, which is used to generate augmented data to support downstream tasks such as Speaker Distance Estimation (SDE). The dataset includes single-channel RIRs, 8th-order higher-order Ambisonics RIRs (HOA-RIRs), annotated source and receiver positions, as well as 3D models of the rooms.
创建时间:
2024-12-20
原始信息汇总
GenDARA 2025 Challenge - 生成数据增强用于房间声学中的说话人距离估计
数据集概述
GenDARA 2025挑战赛旨在通过生成房间脉冲响应(RIR)数据来增强稀疏的RIR数据,以用于下游任务——说话人距离估计(SDE)。该挑战赛分为两个任务:
- 任务1:使用RIR生成系统增强RIR数据
- 任务2:使用增强的RIR数据改进说话人距离估计模型
数据集内容
注册数据
- 房间1-10:使用Treble Technologies的波基模拟器生成,每个房间提供:
- 5个单通道RIR
- 5个8阶HOA RIR
- 标记的源和接收器位置(
meta.csv) - 包含家具的房间3D模型
- 房间11-20:来自GWA数据集,使用混合波基和几何声学模拟器生成,每个房间提供:
- 5+个单通道RIR
- 标记的源和接收器位置(
meta.csv)
- Room_0:Treble办公室的物理房间,提供:
- 20个测量的单通道RIR
- 20个模拟的单通道和8阶HOA RIR
- 405个模拟的单通道和8阶HOA RIR(网格位置)
- 标记的源和接收器位置
- 包含家具的房间3D模型
任务1:RIR生成系统评估
- 参与者需在20个房间中生成指定源-接收器位置的RIR。
- 评估标准包括T60、DRR和EDF与参考RIR的相似性。
任务2:说话人距离估计模型改进
- 参与者需使用生成的RIR数据集微调预训练的SDE模型。
- 评估标准包括绝对距离误差和百分比距离误差。
数据集使用
- 基线SDE系统:基于C4DM RIR数据集和VCTK语音数据集训练的SoTA模型。
- 训练脚本:提供用于微调基线SDE模型的训练脚本。
提交要求
- 任务1:提交102个WAV文件。
- 任务2:提交包含480个距离估计的CSV文件。
重要日期
- 2024年12月23日:提交系统开放
- 2025年3月12日:提交截止日期
- 2025年4月初:结果公布
引用
如果使用该数据集或挑战赛内容,请引用以下论文: bibtex @inproceedings{GenDA2025_RoomAcoustics, title={Generative Data Augmentation Challenge: Synthesis of Room Acoustics for Speaker Distance Estimation}, author={Jackie Lin and Georg G"otz and Hermes Sampedro Llopis and Haukur Hafsteinsson and Steinar Gu{dh}jonsson and Daniel Gert Nielsen and Finnur Pind and Paris Smaragdis and Dinesh Manocha and John Hershey and Trausti Kristjansson and Minje Kim}, booktitle={IEEE International Conference on Acoustics, Speech and Signal Processing Workshops(ICASSPW)}, year={2025} }
联系方式
- Jackie Lin (jackiel4@illinois.edu)
- Minje Kim (minje@illinois.edu)
搜集汇总
数据集介绍

构建方式
GenDARA 2025 Challenge数据集的构建旨在通过生成式数据增强技术,提升房间声学环境下的说话人距离估计(SDE)任务性能。数据集的核心任务分为两部分:首先,参与者需基于稀疏的房间脉冲响应(RIR)数据,构建RIR生成系统以生成新的源-接收器位置的RIR数据;其次,利用生成的RIR数据对预训练的SDE模型进行微调,以评估生成数据的质量对下游任务的影响。数据集提供了20个房间的RIR数据,其中10个房间通过波场模拟器生成,另外10个房间则来自GWA数据集。每个房间提供了5个单通道RIR数据、8阶高阶Ambisonics RIR数据、源-接收器位置标签以及3D房间模型。
特点
GenDARA 2025 Challenge数据集的特点在于其多样化的数据来源和丰富的模态信息。数据集不仅包含单通道RIR数据,还提供了高阶Ambisonics RIR数据和3D房间模型,为RIR生成系统提供了多模态输入的可能性。此外,数据集还包含一个真实房间(Room_0)的实测RIR数据及其模拟版本,用于系统校准。这种多样化的数据设计使得数据集能够模拟真实世界的复杂声学环境,为RIR生成和SDE任务提供了更具挑战性和实用性的测试平台。
使用方法
使用GenDARA 2025 Challenge数据集时,参与者首先需构建RIR生成系统,利用提供的稀疏RIR数据生成新的RIR数据。生成的数据将用于微调预训练的SDE模型。参与者需按照指定的格式提交生成的RIR文件和SDE模型的预测结果。数据集提供了详细的评估脚本和基线模型代码,帮助参与者快速上手。此外,数据集还支持自定义SDE模型的开发,鼓励创新。参与者需通过ICASSP 2025的提交系统提交两页的技术报告和生成的数据文件,最终结果将根据生成RIR的质量和SDE模型的性能进行评估。
背景与挑战
背景概述
GenDARA 2025 Challenge Dataset 是由国际声学、语音与信号处理会议(ICASSP 2025)的生成数据增强研讨会推出的一个数据集,旨在通过生成房间脉冲响应(RIR)数据来增强稀疏的RIR数据,进而提升说话者距离估计(SDE)任务的性能。该数据集由Treble Technologies和GWA数据集提供支持,涵盖了20个不同房间的RIR数据,包括单通道RIR、高阶Ambisonics RIR(HOA-RIR)以及房间的3D模型。通过这一挑战,研究人员希望探索生成数据对下游任务模型性能的影响,尤其是在真实场景中RIR数据稀缺的情况下。该数据集的推出为声学信号处理领域提供了新的研究方向,推动了生成数据增强技术在声学建模中的应用。
当前挑战
GenDARA 2025 Challenge Dataset 面临的主要挑战包括两个方面。首先,在领域问题方面,如何通过生成RIR数据来有效提升说话者距离估计模型的性能是一个核心难题。由于真实场景中RIR数据的采集成本高且数量有限,生成高质量且多样化的RIR数据以增强模型的泛化能力成为关键。其次,在数据构建过程中,如何从有限的RIR数据中生成新的RIR数据,同时确保其与真实RIR在声学特性(如T60、DRR和EDF)上的一致性,也是一个技术难点。此外,如何在生成数据的基础上,进一步优化SDE模型的训练过程,确保生成数据的有效性,也是该数据集面临的挑战之一。
常用场景
经典使用场景
GenDARA 2025 Challenge Dataset 主要用于生成房间脉冲响应(RIR)数据,以增强稀疏的RIR数据集,进而用于下游任务,如说话者距离估计(SDE)。该数据集通过提供少量带有标签的RIR数据,要求参与者构建RIR生成系统,生成新的源-接收器位置的RIR,从而扩充数据集。这一过程不仅模拟了真实世界中的RIR采集场景,还为后续的SDE模型训练提供了丰富的数据支持。
解决学术问题
该数据集解决了在房间声学研究中,RIR数据采集成本高、数据稀疏的问题。通过生成新的RIR数据,研究者可以更有效地训练SDE模型,提升其在复杂声学环境中的性能。此外,该数据集还为研究生成数据增强技术在声学领域的应用提供了实验平台,推动了声学信号处理领域的技术进步。
衍生相关工作
基于GenDARA 2025 Challenge Dataset,许多相关研究工作得以展开。例如,研究者们开发了多种RIR生成算法,探索了不同输入数据(如3D扫描、图像、高阶Ambisonics RIR等)对生成RIR质量的影响。此外,该数据集还推动了SDE模型的改进,许多团队提出了新的模型架构和训练策略,进一步提升了说话者距离估计的精度和鲁棒性。
以上内容由遇见数据集搜集并总结生成



