CMU Wilderness Multilingual Speech Dataset

github2023-02-12 更新2024-05-31 收录

下载链接：

https://github.com/DewiBrynJones/datasets-CMU_Wilderness

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过700种不同语言的数据集，提供音频、对齐文本和单词发音。平均每种语言提供约20小时的句子长度转录。数据来源于http://www.bible.is/ 的阅读新约。

A dataset encompassing over 700 distinct languages, offering audio, aligned text, and word pronunciations. On average, each language includes approximately 20 hours of sentence-length transcriptions. The data is sourced from readings of the New Testament available at http://www.bible.is/.

创建时间：

2020-05-15

原始信息汇总

CMU Wilderness Multilingual Speech Dataset 概述

数据集描述

名称: CMU Wilderness Multilingual Speech Dataset
内容: 包含超过700种语言的音频、对齐文本和单词发音。每种语言平均提供约20小时的句子长度转录。
数据来源: 从 http://www.bible.is/ 挖掘的读新约圣经数据。

语言列表与特征

文件: LangList.txt
特征:
- LANGID: 六字母语言ID
- TLC: 三字母语言代码（ISO 639-3）
- WIKI: 维基百科链接
- START: 开始URL
- LAT: 地理位置纬度
- LONG: 地理位置经度
- #utt0: 在Pass 0中找到的语音数量
- MCD0: Pass 0的Mel Cepstral Distortion分数
- #utt1: 在Pass 1中找到的语音数量
- MCD1: Pass 1的Mel Cepstral Distortion分数
- Dur: 对齐数据时长
- MCDB: 基础CG合成器的Mel Cepstral Distortion分数
- MCDR: 随机森林CG合成器的Mel Cepstral Distortion分数
- NAME: 语言文本名称

数据处理与模型创建

创建对齐: 使用 fast_make_align 或 full_make_align 命令创建对齐。
创建TTS模型: 使用 make_tts 命令创建语音合成模型。
创建ASR模型: 使用 make_asr 命令生成无标点转录和发音词典。
创建新对齐: 使用 full_make_align 命令进行完全对齐创建。
创建电话级对齐: 使用 make_phone_alignments 命令生成电话级对齐。

数据集贡献者

准备者: Alan W Black (awb@cs.cmu.edu)
协助者: 多位CMU学生及CMU社区成员
资金支持: DARPA Lorelei Program

搜集汇总

数据集介绍

构建方式

CMU Wilderness多语言语音数据集的构建基于从http://www.bible.is/网站挖掘的《新约》朗读音频。数据集涵盖了超过700种语言，每种语言平均提供约20小时的句子长度转录。通过两轮对齐过程（跨语言对齐和语言内对齐），确保了音频与文本的精确匹配。数据集的构建还包括了地理定位信息，每种语言均附有详细的元数据，如语言代码、维基百科链接、经纬度坐标等。

特点

该数据集的一个显著特点是其广泛的语言覆盖范围，涵盖了全球多种语言和方言。每种语言的音频数据均经过精确对齐，并附有详细的转录文本和发音词典。此外，数据集还提供了Mel倒谱失真评分，用于评估对齐质量。数据集的地理定位信息使得研究者能够从地理分布的角度分析语言数据。这些特点使得该数据集成为多语言语音识别和合成研究的宝贵资源。

使用方法

使用该数据集时，用户首先需要克隆GitHub仓库并安装必要的依赖项。通过提供的脚本，用户可以下载特定语言的音频数据并重建对齐数据。数据集支持构建文本到语音模型和语音到文本模型，用户可以根据需要生成相应的合成语音或转录文本。此外，数据集还支持生成音素级别的对齐数据，进一步扩展了其在语音研究中的应用。用户可以通过命令行工具快速启动这些任务，并根据需要调整参数以优化模型性能。

背景与挑战

背景概述

CMU Wilderness Multilingual Speech Dataset由卡内基梅隆大学（CMU）的Alan W Black教授及其团队于2019年创建，旨在为多语言语音处理研究提供丰富的资源。该数据集涵盖了超过700种语言的音频、对齐文本及单词发音数据，每种语言平均提供约20小时的句子级转录。数据主要来源于《新约圣经》的朗读录音，这些录音通过http://www.bible.is/网站获取。该数据集的发布极大地推动了多语言语音识别、语音合成以及语音对齐等领域的研究，尤其是在低资源语言的处理方面，提供了宝贵的数据支持。

当前挑战

CMU Wilderness Multilingual Speech Dataset在构建和应用过程中面临多重挑战。首先，数据集的构建依赖于跨语言对齐和语言内对齐技术，这些技术在处理低资源语言时，由于缺乏足够的标注数据，对齐精度难以保证。其次，数据集中的音频数据来源于公开的《新约圣经》朗读录音，其录音质量和发音一致性存在较大差异，这为语音对齐和模型训练带来了额外的复杂性。此外，数据集的规模庞大，涵盖700多种语言，构建完整的语音对齐和模型训练需要极高的计算资源和时间成本，单机处理所有语言的对齐任务预计需要13年时间。这些挑战不仅影响了数据集的构建效率，也对后续的多语言语音处理研究提出了更高的技术要求。

常用场景

经典使用场景

CMU Wilderness Multilingual Speech Dataset 是一个包含超过700种语言的语音数据集，广泛应用于多语言语音识别和合成研究。该数据集通过提供音频、对齐文本和单词发音，为研究者提供了一个丰富的资源库，用于训练和测试跨语言语音处理模型。特别是在低资源语言的语音技术开发中，该数据集展现了其独特的价值。

实际应用

在实际应用中，CMU Wilderness Multilingual Speech Dataset 被广泛用于开发多语言语音助手、自动翻译系统和语音驱动的教育工具。特别是在全球化的背景下，该数据集为跨语言沟通提供了技术支持，帮助企业和组织在多语言环境中实现高效的语音交互。此外，该数据集还被用于文化遗产保护，帮助记录和保存濒危语言的语音数据。

衍生相关工作

基于CMU Wilderness Multilingual Speech Dataset，研究者们开发了一系列经典的多语言语音处理工具和模型。例如，许多研究团队利用该数据集训练了跨语言的语音识别系统，并在国际语音处理会议上发表了相关成果。此外，该数据集还催生了一些开源项目，如基于Festival和Flite的语音合成模型，进一步推动了多语言语音技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集