CMU Wilderness Multilingual Speech Dataset

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/festvox/datasets-CMU_Wilderness

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过700种不同语言的数据集，提供音频、对齐文本和单词发音。每种语言平均提供约20小时的句子长度转录。数据来源于http://www.bible.is/的阅读新约。

A dataset encompassing over 700 distinct languages, offering audio, aligned text, and word pronunciations. Each language provides an average of approximately 20 hours of sentence-length transcriptions. The data is sourced from readings of the New Testament available at http://www.bible.is/.

创建时间：

2018-10-30

原始信息汇总

数据集概述

数据集名称

CMU Wilderness Multilingual Speech Dataset

数据集内容

包含超过700种不同语言的音频、对齐文本和单词发音。
每种语言平均提供约20小时的句子长度转录。
数据来源于阅读的新约圣经，来源网站为http://www.bible.is/。

语言列表与特征

语言列表文件为LangList.txt，包含以下特征：
- LANGID: 六字母语言ID
- TLC: 三字母语言代码（ISO 639-3）
- WIKI: 维基百科链接
- START: 开始URL
- LAT: 地理定位纬度
- LONG: 地理定位经度
- #utt0: 在Pass 0中找到的语音数量
- MCD0: Pass 0的Mel Cepstral Distortion分数
- #utt1: 在Pass 1中找到的语音数量
- MCD1: Pass 1的Mel Cepstral Distortion分数
- Dur: 对齐数据的时长
- MCDB: 基本CG合成器的Mel Cepstral Distortion分数
- MCDR: 随机森林CG合成器的Mel Cepstral Distortion分数
- NAME: 语言的文本名称

数据集使用

用户需自行下载音频数据，并使用提供的索引重建对齐数据。
可用于创建文本到语音模型、语音到文本模型以及进行新的对齐。

数据集贡献者

由Alan W Black (awb@cs.cmu.edu)准备，并得到CMU学生的广泛帮助。
感谢CMU社区成员，特别是Florian Metze，以及DARPA Lorelei项目的部分资助。

搜集汇总

数据集介绍

构建方式

CMU Wilderness Multilingual Speech Dataset通过从http://www.bible.is/网站上获取的读经文本构建，涵盖了超过700种语言的音频、对齐文本和单词发音。每种语言平均提供了约20小时的句子长度转录数据。数据集的构建过程包括从bible.is下载音频数据，并使用分布式索引进行对齐处理，生成对齐的音频和文本数据。此外，数据集还提供了语言的地理位置信息和语言特征列表，以便进一步分析和研究。

特点

该数据集的显著特点在于其广泛的语言覆盖范围和丰富的数据类型。它不仅包含了音频和文本数据，还提供了单词的发音信息，这对于语音合成和识别任务具有重要价值。此外，数据集还提供了每种语言的对齐准确性评分和地理定位信息，这些特征为跨语言研究和语音技术的发展提供了宝贵的资源。

使用方法

使用该数据集时，用户首先需要克隆GitHub仓库并安装必要的依赖项。随后，用户可以选择特定的语言代码，下载相应的音频数据并重建对齐数据。数据集支持多种语音技术的开发，包括文本到语音（TTS）和语音到文本（STT）模型的构建。此外，用户还可以生成新的对齐数据或进行更精细的音素级别对齐，以满足不同的研究需求。

背景与挑战

背景概述

CMU Wilderness Multilingual Speech Dataset 是由卡内基梅隆大学（CMU）的研究团队创建的一个大规模多语言语音数据集，旨在支持跨语言语音处理的研究。该数据集包含了来自700多种语言的语音数据，每种语言平均提供了约20小时的句子级转录音频。数据主要来源于http://www.bible.is/网站上的新约圣经朗读内容。数据集不仅提供了音频和对应的文本对齐信息，还包括了单词发音的标注。该数据集的核心研究问题是如何在多语言环境下进行高效的语音识别、语音合成以及跨语言对齐。该数据集的发布对于推动多语言语音处理技术的发展具有重要意义，尤其是在低资源语言的语音技术研究中，提供了宝贵的资源。

当前挑战

CMU Wilderness Multilingual Speech Dataset 在构建过程中面临了多重挑战。首先，数据集涵盖了700多种语言，其中许多语言属于低资源语言，缺乏标准的语音和文本对齐工具，这增加了数据处理的复杂性。其次，由于数据来源于不同的语言和文化背景，语音的多样性和变异性极大，导致对齐和标注的准确性难以保证。此外，数据集的构建需要大量的计算资源和时间，例如，单个语言的对齐过程可能需要数天时间，而全部700种语言的对齐则需要超过13年的时间。最后，数据集的发布还面临版权和隐私问题，因为音频数据无法直接重新分发，用户需要自行从源网站下载。这些挑战使得数据集的构建和使用成为一项复杂且耗时的任务。

常用场景

经典使用场景

CMU Wilderness Multilingual Speech Dataset 是一个包含超过700种语言的音频、对齐文本和单词发音的数据集，平均每种语言提供约20小时的句子长度转录。该数据集的经典使用场景主要集中在语音识别（Speech-to-Text, STT）和文本转语音（Text-to-Speech, TTS）模型的开发与优化。通过利用数据集中丰富的多语言资源，研究者可以训练和验证跨语言语音识别系统，提升模型在不同语言环境下的鲁棒性和准确性。此外，该数据集还可用于语言学研究，帮助分析不同语言的语音特征和发音规律。

衍生相关工作

CMU Wilderness Multilingual Speech Dataset 的发布催生了一系列相关的经典工作，特别是在多语言语音识别和合成领域。基于该数据集，研究者开发了多种跨语言语音识别模型，显著提升了低资源语言的识别性能。此外，数据集还被用于构建多语言语音合成系统，推动了语音合成技术在不同语言中的应用。在语言学研究方面，该数据集为语音特征分析和语言发音规律的研究提供了丰富的素材，促进了语言多样性保护和濒危语言的数字化工作。

数据集最近研究