DiDiSpeech

arXiv2021-02-08 更新2024-06-21 收录

下载链接：

https://outreach.didichuxing.com/research/opendata/

下载链接

链接失效反馈

资源简介：

DiDiSpeech是一个大规模的普通话语音数据集，由滴滴出行创建，包含约800小时的48kHz采样率语音数据，来自6000名不同年龄和性别的母语普通话发音人。数据集在安静环境中录制，适用于多种语音处理任务，如语音转换、多说话人文本到语音合成和自动语音识别。创建过程包括使用移动设备在安静环境中录制，并经过信号处理和文本预处理。该数据集旨在支持学术研究和工业应用，特别是在提升普通话语音处理技术方面。

DiDiSpeech is a large-scale Mandarin speech dataset created by DiDi Chuxing. It contains approximately 800 hours of 48kHz sampling rate speech data collected from 6000 native Mandarin speakers with diverse ages and genders. Recorded in quiet environments, this dataset is applicable to a wide range of speech processing tasks, including voice conversion, multi-speaker text-to-speech synthesis and automatic speech recognition. Its creation process includes recording via mobile devices in quiet environments, followed by signal processing and text preprocessing. This dataset aims to support academic research and industrial applications, especially for advancing Mandarin speech processing technologies.

提供机构：

滴滴出行

创建时间：

2020-10-19

AI搜集汇总

数据集介绍

构建方式

DiDiSpeech数据集的构建采用了多样化的语音记录方式，共收录了6000位发音人的约800小时普通话语音数据。数据集分为DiDiSpeech-1和DiDiSpeech-2两个子集，分别针对语音转换和多说话人语音合成或自动语音识别任务进行设计。数据集的构建过程中，发音人被分为南北两个区域，以及成年、青年和儿童三个年龄段，以确保数据集的地域和年龄多样性。录音设备使用手机，并在安静环境下进行，以模拟真实的应用场景。文本预处理阶段，对句子进行了字符限制，并采用图音转换模块生成发音，同时修正了多音字的发音。后处理阶段，通过信噪比分析、能量和韵律分析以及语音识别引擎，筛选出了高质量的语音数据。

特点

DiDiSpeech数据集具有以下特点：首先，数据集规模庞大，收录了约800小时的语音数据，能够满足多种语音处理任务的需求；其次，数据集涵盖了南北两个区域的发音人，以及成年、青年和儿童三个年龄段，具有地域和年龄多样性；第三，数据集采用了多样化的语音记录方式，包括并行语料和非并行语料，能够满足不同任务的需求；最后，数据集采用了高质量的录音设备，并在安静环境下进行录音，保证了语音数据的真实性。

使用方法

使用DiDiSpeech数据集进行语音处理任务时，首先需要根据任务需求选择合适的子集，例如DiDiSpeech-1适用于语音转换任务，而DiDiSpeech-2适用于多说话人语音合成或自动语音识别任务。其次，需要对数据进行预处理，包括文本预处理和语音预处理。文本预处理主要包括字符限制和图音转换，语音预处理主要包括信噪比分析、能量和韵律分析以及语音识别引擎。最后，选择合适的语音处理模型进行训练和评估。例如，在语音转换任务中，可以使用StarGan-VC2框架进行训练；在多说话人语音合成任务中，可以使用Tacotron-2或FastSpeech模型进行训练；在自动语音识别任务中，可以使用Transformer-based ASR模型进行训练。

背景与挑战

背景概述

语音处理领域近年来取得了显著的进展，这得益于深度学习技术的兴起。然而，由于现有语音语料库的质量或数量限制，研究成果往往难以应用于工业场景。为了解决这一难题，滴滴出行公司推出了一个名为DiDiSpeech的大型中文语音语料库。该语料库由约800小时的语音数据和对应的文本组成，录制于安静的环境中，适用于语音转换、多说话人文本到语音和多说话人自动语音识别等多种语音处理任务。实验结果表明，DiDiSpeech语料库在学术研究和实际应用中都具有广阔的前景。

当前挑战

DiDiSpeech语料库面临着一些挑战。首先，构建大规模的语音语料库需要耗费大量的时间和资源。其次，由于语音数据的多样性，如何有效地对语音数据进行预处理和后处理是一个挑战。此外，如何将DiDiSpeech语料库应用于更多的语音处理任务，如语音情感识别和说话人识别等，也是一个值得研究的方向。

常用场景

经典使用场景

DiDiSpeech 数据集作为大规模的普通话语音语料库，其经典使用场景主要包括语音转换、多说话人文本到语音和多说话人语音识别等。该数据集提供了约800小时的语音数据，采样率为48kHz，来自6000名说话人，以及相应的文本。这些语音数据在安静的环境中录制，适用于各种语音处理任务。

实际应用

DiDiSpeech 数据集在实际应用中具有重要的价值。它可以为语音合成、语音识别、语音转换等语音处理任务提供高质量的数据，从而提高这些任务的准确性和实用性。此外，该数据集还可以用于构建多说话人语音合成或语音识别系统，为语音处理领域的发展提供支持。

衍生相关工作

DiDiSpeech 数据集的发布引发了相关领域的一系列研究。例如，基于该数据集，研究者们开发了多说话人语音合成系统、语音识别模型和副语言信息识别模型等。这些研究成果有助于推动语音处理领域的发展，并为相关应用提供技术支持。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集