five

DNS-Challenge|语音增强数据集|噪声抑制数据集

收藏
arXiv2020-04-20 更新2024-06-21 收录
语音增强
噪声抑制
下载链接:
https://github.com/microsoft/DNSChallenge/tree/master/datasets
下载链接
链接失效反馈
资源简介:
DNS-Challenge数据集由微软公司发布,旨在推动实时单通道语音增强研究,以最大化增强语音的主观(感知)质量。该数据集包括大规模的纯净语音和噪声数据,用于训练噪声抑制模型,并提供了一个包含合成和真实录音的代表性测试集。数据集的创建过程涉及从Librivox和Audioset等公共数据源中筛选高质量的语音和噪声片段,并通过合成技术生成噪声语音对。该数据集特别适用于解决远程工作和开放办公室环境中语音通信质量问题,尤其是背景噪声导致的语音质量下降问题。
提供机构:
微软公司
创建时间:
2020-01-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
DNS-Challenge数据集的构建基于大规模的干净语音和噪声数据,旨在为语音增强模型的训练提供丰富的资源。干净语音数据集源自Librivox项目,通过ITU-T P.808主观测试框架筛选出高质量的语音片段,最终形成包含441小时语音数据的子集。噪声数据集则从Audioset和Freesound中选取,经过平衡处理和语音活动检测,确保噪声类型的多样性和纯净性。通过将干净语音与噪声按不同信噪比(SNR)混合,生成用于训练的噪声语音数据。此外,测试集包含合成和真实录音,确保模型在不同场景下的泛化能力。
特点
DNS-Challenge数据集的显著特点在于其数据规模和多样性。干净语音数据集包含441小时的高质量语音,噪声数据集涵盖150种不同类型的噪声,确保了训练数据的广泛覆盖。测试集的设计考虑了实际应用场景,包括无混响和有混响的合成数据,以及来自Microsoft内部和Audioset的真实录音,提供了全面的评估环境。此外,数据集的开源性质和在线主观测试框架的提供,进一步促进了研究社区的协作和模型性能的客观评估。
使用方法
DNS-Challenge数据集适用于各种语音增强模型的训练和评估。研究者可以使用提供的干净语音和噪声数据,通过配置脚本生成训练数据集。测试阶段,研究者可以利用公开的测试集进行模型性能的初步验证,而最终的竞赛结果将基于盲测集的主观评估。数据集支持两种计算复杂度的竞赛轨道,分别针对实时和非实时语音增强方法。参与者需提交其模型的推理脚本和增强后的语音片段,最终胜出者将根据ITU-T P.808框架下的主观评分确定。
背景与挑战
背景概述
随着远程工作和开放式办公环境的普及,确保高质量的语音通话变得尤为重要。然而,背景噪音常常导致语音质量下降,影响通话体验。传统的语音增强(Speech Enhancement, SE)技术主要基于统计模型,对非平稳噪音的处理效果有限。近年来,深度学习技术在语音增强领域取得了显著进展,通过监督学习方法,深度神经网络(DNN)能够有效抑制非平稳噪音。DNS-Challenge数据集由微软公司于2020年发布,旨在推动实时单通道语音增强技术的研究,特别是通过主观质量评估来提升增强语音的感知质量。该数据集包含大规模的纯净语音和噪音语料,以及一个代表性的测试集,涵盖了合成和真实录音,为研究人员提供了一个统一的评估框架。
当前挑战
DNS-Challenge数据集面临的挑战主要包括:1) 合成测试集与真实世界录音之间的性能差异,合成数据通常无法完全模拟真实环境中的复杂噪音和混响;2) 传统客观评价指标(如PESQ、POLQA)与主观测试结果之间的低相关性,这使得模型在实际应用中的表现难以预测;3) 构建过程中遇到的挑战,如数据集的多样性和代表性,确保训练数据能够覆盖广泛的真实世界噪音场景。此外,大规模数据集的构建和处理,以及在线主观评估框架的开发和验证,也是该数据集面临的重要挑战。
常用场景
经典使用场景
DNS-Challenge数据集的经典使用场景主要集中在实时单通道语音增强领域。该数据集通过提供大规模的干净语音和噪声语料库,以及一个包含合成和真实录音的代表性测试集,为研究人员提供了一个全面的平台来训练和评估噪声抑制模型。研究人员可以利用这些数据集来开发和优化深度神经网络(DNN)模型,以提高在各种噪声环境下的语音质量。
实际应用
DNS-Challenge数据集在实际应用中具有广泛的前景,特别是在远程工作和开放办公环境中。高质量的语音通信在这些场景中变得尤为重要,而背景噪声往往是影响语音质量的主要因素。通过使用该数据集训练的噪声抑制模型,可以显著提升语音通话的清晰度和可懂度,从而改善用户体验。此外,这些模型还可以应用于语音识别系统、视频会议软件和助听器等设备中,提高其在噪声环境下的性能。
衍生相关工作
DNS-Challenge数据集的发布催生了一系列相关的经典工作。例如,基于该数据集的训练和测试,研究人员开发了多种先进的语音增强算法,如Noise Suppression Net(NSNet),该算法利用递归神经网络(RNN)在时频域进行语音增强。此外,数据集还推动了在线主观评价框架的发展,特别是基于ITU-T P.808的实现,为大规模主观测试提供了可靠的工具。这些工作不仅提升了语音增强技术的水平,也为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录