URGENT 2025 Challenge Dataset|语音增强数据集|噪声处理数据集
收藏urgent2025_challenge
数据集概述
- 数据集名称: urgent2025_challenge
- 数据集用途: 用于URGENT 2025挑战赛的数据准备脚本。
- 兼容性: 生成的元数据文件与baseline代码兼容。
更新记录
- 2024-11-27: 添加了已知问题的故障排除指南。
- 2024-11-19: 修改了ESTOI评估脚本,使其具有确定性。
- 2024-11-18: 添加了Track 2数据准备所需的缺失文件。
- 2024-11-16: 修改了部分数据准备和评估脚本。
注意事项
- 验证集: 生成的验证集与官方验证集不同,官方验证集数据可从此处获取。
- 数据使用: 默认生成的
data/speech_train
子集仅用于ESPnet框架中的动态混合。
系统要求
- CPU核心数: >8
- 磁盘空间:
- Track 1: 至少1.3 TB
- Track 2: ??? TB
- 数据大小:
- 语音数据:
- DNS5 speech: 318 GB
- LibriTTS: 51 GB
- VCTK: 12 GB
- WSJ: 55 GB
- EARS: 61 GB
- CommonVoice 19.0 speech:
- Track 1: 421 GB
- Track 2: ??? GB
- MLS:
- Track 1: 120 GB
- Track 2: ??? TB
- 噪声数据:
- DNS5 noise: 93 GB
- WHAM! noise: 76 GB
- FSD50K: 30 GB
- FMA: 60 GB
- RIR数据:
- DNS5 RIRs: 6 GB
- 其他数据:
- 默认模拟验证数据: 2 GB
- 模拟风噪声: 1 GB
- 语音数据:
使用说明
-
初始化子模块: bash git submodule update --init --recursive
-
安装环境: bash conda env create -f environment.yaml conda activate urgent2025
-
获取Commonvoice数据集链接:
- 从Common Voice获取v19.0的下载链接。
-
创建符号链接:
- 创建wsj0和wsj1数据的符号链接。
-
配置FFmpeg:
- 修改
simulation/simulate_data_from_param.py
中的FFmpeg路径。
- 修改
-
运行脚本: bash ./prepare_espnet_data.sh
-
安装eSpeak-NG:
- 用于音素相似度度量计算。
故障排除
- MLS数据解压错误: 删除失败的文件并重新运行脚本。
- FMA数据处理警告: 可以忽略。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)
本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。
国家青藏高原科学数据中心 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录