DDS
收藏arXiv2022-03-22 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.5464104
下载链接
链接失效反馈官方服务:
资源简介:
DDS数据集由日本国立情报学研究所创建,旨在支持语音增强研究,特别是针对非专业设备录制的低质量语音。该数据集包含约1,944小时的语音数据,涵盖27种真实录音条件,通过结合多样化的声学环境和麦克风设备来模拟不同的噪声和混响水平。数据集内容包括高质量语音(专业录音室录制)和多种低质量版本,用于训练和测试语音增强模型。DDS数据集的应用领域包括自动语音识别的领域适应、从发现的声音数据进行文本到语音/语音转换以及自动说话人验证中的重放欺骗检测。
The DDS dataset was created by the National Institute of Informatics (NII) of Japan to support research on speech enhancement, particularly for low-quality speech recorded by non-professional consumer-grade devices. This dataset contains approximately 1,944 hours of speech data, covering 27 real-world recording conditions. It simulates varying levels of noise and reverberation by combining diverse acoustic environments and microphone setups. The dataset includes both high-quality speech (recorded in professional studios) and multiple low-quality variants, which are used for training and testing speech enhancement models. Application scenarios of the DDS dataset include domain adaptation for automatic speech recognition (ASR), text-to-speech (TTS)/speech conversion from discovered audio data, and replay spoofing detection in automatic speaker verification (ASV).
提供机构:
日本国立情报学研究所 2高级研究生院
创建时间:
2021-09-16
搜集汇总
数据集介绍

构建方式
DDS数据集的构建基于两个现有的数据集:DAPS和VCTK。研究团队在这些数据集中选取了高质量的语音材料,并通过在九种不同的现实环境中使用三种不同的麦克风设备进行重新录制,模拟了27种不同的录音条件。每个条件下的录音通过六个不同的麦克风位置进行,以模拟不同的噪声和混响水平。最终,DDS数据集包含了约1,944小时的现实录音,涵盖了环境、设备和位置等多种录音因素。
特点
DDS数据集的主要特点在于其大规模和多样性。它不仅提供了高质量的语音录音,还包含了多种低质量的设备降质语音,涵盖了从办公室到工作室等多种现实环境。此外,数据集通过不同的麦克风位置和设备类型,模拟了真实世界中常见的噪声和混响情况,为语音增强研究提供了丰富的数据支持。
使用方法
DDS数据集可用于多种语音处理任务,如语音增强、自动语音识别(ASR)的领域适应、文本到语音(TTS)和语音转换(VC)等。研究者可以通过该数据集训练和评估语音增强模型,特别是针对设备降质语音的处理。数据集的多样性和大规模特性使其成为验证和改进语音增强算法的有力工具。
背景与挑战
背景概述
随着日常生活中大量语音内容在非专业设备和非受控环境中被记录,语音质量的下降问题日益突出。为了应对这一挑战,语音增强(Speech Enhancement, SE)技术应运而生,旨在将低质量的设备降质语音转化为高质量语音。DDS数据集由日本国立信息学研究所(National Institute of Informatics)和高级研究大学院(The Graduate University for Advanced Studies)的研究人员Haoyu Li和Junichi Yamagishi于2021年创建,旨在为语音增强研究提供一个大规模的真实设备降质语音数据集。DDS数据集包含了约1,944小时的语音数据,涵盖了27种不同的录音条件,结合了多种声学环境和麦克风设备,为研究者提供了一个全面且多样化的语音增强研究平台。
当前挑战
DDS数据集的构建面临多个挑战。首先,如何准确模拟真实世界中设备降质语音的复杂性是一个主要难题,因为现有的合成数据集往往无法完全捕捉到真实录音中的非线性混响和麦克风失真。其次,数据集的构建过程中需要考虑多种声学环境、设备类型和麦克风位置的组合,这增加了数据采集和处理的复杂性。此外,如何确保数据集的多样性和代表性,以便训练出的模型能够泛化到各种实际应用场景,也是一大挑战。最后,尽管深度神经网络(DNN)在语音增强中表现出色,但其训练需要大规模数据集,而现有数据集的规模相对较小,且多为合成数据,这限制了模型的泛化能力。
常用场景
经典使用场景
DDS数据集在语音增强领域中具有广泛的应用,尤其是在处理由消费级设备在非受控环境中录制的低质量语音时。该数据集提供了高质量语音(在专业录音室录制)与低质量语音(在多种真实环境中使用不同麦克风设备录制)的平行对齐记录,涵盖了27种现实录音条件。通过这些数据,研究者可以训练和评估语音增强算法,以提升低质量语音的清晰度和可懂度。
实际应用
DDS数据集在实际应用中具有广泛的前景,特别是在提升语音通信质量和语音生成任务中。例如,在移动通信、语音助手、语音识别(ASR)和文本转语音(TTS)系统中,DDS数据集可以帮助提升系统在复杂环境下的鲁棒性和性能。此外,该数据集还可用于语音转换(VC)和自动说话人验证(ASV)等领域的研究,进一步提升这些技术的实际应用效果。
衍生相关工作
DDS数据集的发布激发了大量相关研究工作,尤其是在语音增强和语音处理领域。基于DDS数据集,研究者们开发了多种语音增强算法,如深度复杂卷积循环网络(DCCRN)和WaveNet等,这些算法在处理真实世界中的低质量语音时表现出色。此外,DDS数据集还被用于域适应、语音合成和语音欺骗检测等领域的研究,推动了这些领域的技术进步。
以上内容由遇见数据集搜集并总结生成



