CMU Wilderness Multilingual Speech Dataset

github2019-04-21 更新2024-05-31 收录

下载链接：

https://github.com/ssethia2/datasets-CMU_Wilderness

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过700种不同语言的语音数据集，提供音频、对齐文本和单词发音。平均每种语言提供约20小时的句子长度转录。数据来源于http://www.bible.is/的读经新约。

A speech dataset encompassing over 700 distinct languages, offering audio, aligned text, and word pronunciations. On average, approximately 20 hours of sentence-length transcriptions are provided per language. The data is sourced from the New Testament readings available at http://www.bible.is/.

创建时间：

2019-04-20

原始信息汇总

数据集概述

数据集名称

CMU Wilderness Multilingual Speech Dataset

数据集内容

包含超过700种语言的音频、对齐文本和单词发音。
每种语言平均提供约20小时的句子长度转录。
数据来源于阅读的新约圣经，网址为http://www.bible.is/。

语言列表与特征

语言列表存储在LangList.txt文件中，包含以下特征：
1. LANGID：六字母语言ID
2. TLC：三字母语言代码（ISO 639-3）
3. WIKI：维基百科链接
4. START：bible.is的开始URL
5. LAT：地理位置纬度
6. LONG：地理位置经度
7. #utt0：Pass 0中找到的语音数量
8. MCD0：Pass 0的Mel Cepstral Distortion分数
9. #utt1：Pass 1中找到的语音数量
10. MCD1：Pass 1的Mel Cepstral Distortion分数
11. Dur：对齐数据的时长
12. MCDB：基础CG合成器的Mel Cepstral Distortion分数
13. MCDR：随机森林CG合成器的Mel Cepstral Distortion分数
14. NAME：语言的文本名称

数据集操作指南

创建对齐：使用fast_make_align或full_make_align命令创建对齐。
创建文本到语音模型：使用make_tts命令创建语音合成器。
创建语音到文本模型：使用make_asr命令生成无标点转录和发音词典。
创建新的对齐：使用full_make_align命令重新对齐。
创建语音级对齐：使用make_phone_alignments命令生成语音级对齐。

数据集引用

详细信息请参阅Alan W Black的论文"CMU Wilderness Multilingual Speech Dataset"，发表于ICASSP 2019，Brighton, UK。

搜集汇总

数据集介绍

构建方式

CMU Wilderness Multilingual Speech Dataset的构建是通过采集超过700种不同语言的音频、对齐文本和单词发音数据而完成的。该数据集的数据来源于www.bible.is网站上的新约全书朗读，每种语言平均提供大约20小时的句子长度转录。

特点

该数据集的特点在于其涵盖了丰富的语言种类，并提供了详细的语音对齐信息。数据集中的每种语言都经过精确的地理定位，且提供了相对准确的发音对齐评分。此外，数据集还提供了语言列表文件，其中包含了每种处理过的语言的各种特征字段，如语言ID、语言代码、维基百科链接、起始URL、地理坐标等。

使用方法

使用该数据集时，用户需要先安装一系列依赖库和工具，然后通过git克隆仓库来获取数据集。对于特定语言的语音合成模型构建，用户需要从bible.is网站直接下载音频数据，然后使用提供的脚本进行对齐处理。构建文本到语音模型和语音到文本模型也是通过相应的脚本和工具来完成的。

背景与挑战

背景概述

CMU Wilderness Multilingual Speech Dataset是由卡内基梅隆大学（Carnegie Mellon University）的Alan W Black教授领导创建的，该数据集包含了超过700种语言的音频、对齐文本和单词发音信息。该数据集的构建基于从http://www.bible.is/网站抓取的朗读新约全书，旨在为多语言语音处理领域提供丰富的资源。自发布以来，该数据集在语音识别、语音合成和语言处理等领域产生了广泛影响，为研究人员提供了宝贵的多语言语音数据，极大地推动了相关技术的发展。

当前挑战

尽管CMU Wilderness Multilingual Speech Dataset为多语言语音研究提供了有力的支撑，但在使用过程中也面临诸多挑战。首先，数据集构建过程中遇到了多语言文本对齐的难题，需要克服不同语言之间的音素差异。其次，数据集的构建依赖于外部网站的资源，这导致数据获取和处理的复杂性增加。此外，数据集的规模巨大，对计算资源的需求较高，对研究人员的计算能力提出了挑战。在语音识别和合成方面，如何利用该数据集训练出高准确度的模型，也是当前面临的挑战之一。

常用场景

经典使用场景

在语音识别及合成研究领域，CMU Wilderness Multilingual Speech Dataset以其丰富的多语言音频及对应文本数据，成为构建跨语言语音识别模型的经典资源。该数据集包含700多种语言的语音样本，为研究人员提供了开展多语言语音处理研究的坚实基础。

解决学术问题

该数据集解决了多语言环境中语音识别与合成面临的关键问题，如语言间差异导致的识别率下降、语音合成的自然度不足等。通过提供大量标注精确的语音数据，为算法的准确性和鲁棒性提升提供了数据支撑，极大地推动了相关领域的学术研究。

衍生相关工作

基于该数据集，研究者们衍生出了一系列相关工作，包括构建多语言语音识别模型、开发新的语音合成算法、以及进行语言间的语音转换研究等。这些工作进一步拓宽了语音处理技术的应用领域，并为语言学、计算机科学等多个学科提供了宝贵的研究资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集