CMU Wilderness Multilingual Speech Dataset

github2019-06-17 更新2024-05-31 收录

下载链接：

https://github.com/radilr1/datasets-CMU_Wilderness

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含超过700种不同语言的数据集，提供音频、对齐文本和单词发音。平均每种语言提供约20小时的句子长度转录。数据来源于http://www.bible.is/上的新约圣经朗读。

This dataset covers more than 700 distinct languages, providing audio recordings, aligned text transcripts, and word pronunciations. On average, each language is provided with approximately 20 hours of sentence-length transcriptions. The data is sourced from New Testament Bible readings hosted on http://www.bible.is/.

创建时间：

2019-04-03

原始信息汇总

数据集概述

数据集名称

名称: CMU Wilderness Multilingual Speech Dataset

数据集内容

语言数量: 超过700种不同语言
数据类型: 音频、对齐文本和单词发音
平均时长: 每种语言约20小时句子长度的转录
数据来源: 来自http://www.bible.is/的阅读新约

语言列表与特征

文件: LangList.txt
特征:
1. LANGID: 六字母语言ID
2. TLC: 三字母语言代码（ISO 639-3）
3. WIKI: 维基百科链接
4. START: 开始URL
5. LAT: 地理定位纬度
6. LONG: 地理定位经度
7. #utt0: 在Pass 0中找到的语句数量
8. MCD0: Pass 0的Mel Cepstral Distortion分数
9. #utt1: 在Pass 1中找到的语句数量
10. MCD1: Pass 1的Mel Cepstral Distortion分数
11. Dur: 对齐数据的持续时间
12. MCDB: 基本CG合成器的Mel Cepstral Distortion分数
13. MCDR: 随机森林CG合成器的Mel Cepstral Distortion分数
14. NAME: 语言的文本名称

数据集操作

创建对齐:
- 使用fast_make_align或full_make_align命令
- 需要六字母语言代码
创建文本到语音模型:
- 使用make_tts命令
- 构建随机森林Clustergen合成模型
创建语音到文本模型:
- 生成无标点转录文件和发音词汇
创建新对齐:
- 需要BIBLEIS_API_KEY环境变量
- 使用full_make_align命令
创建电话级对齐:
- 使用make_phone_alignments命令

数据集引用

引用: Alan W Black "CMU Wilderness Multilingual Speech Dataset" ICASSP 2019, Brighton, UK.

搜集汇总

数据集介绍

构建方式

该数据集通过挖掘圣经网站http://www.bible.is/上的内容构建而成，包含超过700种不同语言的音频、对齐文本以及单词发音信息。平均而言，每种语言提供了大约20小时的句子长度转录数据。构建过程中，使用了FestVox语音构建工具，并通过两轮对齐（跨语言对齐和语言内对齐）以提高对齐质量。

特点

CMU Wilderness多语言语音数据集的一大特点是覆盖语言种类繁多，提供了地理定位信息的语言地图，以及详细的每种语言的特征列表。数据集质量评价通过Mel Cepstral Distortion分数进行，分数越低表示对齐质量越好。此外，该数据集支持文本到语音和语音到文本的模型创建。

使用方法

使用该数据集前，需先安装必要的Ubuntu依赖和FestVox工具。数据集的音频需从圣经网站直接下载，然后使用提供的索引文件重建对齐数据。创建文本到语音模型或语音到文本模型时，可以利用对齐目录中的数据，通过相应的脚本和命令进行。对于新的对齐创建，需要设置BIBLEIS_API_KEY环境变量，并通过相应的命令执行对齐过程。

背景与挑战

背景概述

CMU Wilderness Multilingual Speech Dataset，简称CMU Wilderness，是由卡内基梅隆大学（Carnegie Mellon University）的Alan W Black教授领导创建的多语种语音数据集。该数据集收集了超过700种不同语言的音频、对齐文本和单词发音，每种语言平均提供大约20小时的句子长度转录。这些数据是从http://www.bible.is/网站上的新约全书中挖掘而来的。CMU Wilderness自2019年发布以来，对语音识别、语音合成以及自然语言处理等领域产生了深远影响。

当前挑战

CMU Wilderness在构建过程中面临的挑战主要包括：首先，由于版权问题，无法直接分发来自bible.is的音频数据，用户需要自行下载；其次，数据集包含了众多小众语言，这些语言的发音和声学模型较为匮乏，给语音识别和语音合成带来了困难；最后，数据集的规模巨大，对计算资源和存储资源提出了较高的要求。在研究领域问题方面，CMU Wilderness旨在解决多语种语音识别和合成中的语言适应性、准确性以及实时性问题。

常用场景

经典使用场景

CMU Wilderness Multilingual Speech Dataset是一款涵盖超过700种语言的音频数据集，每种语言平均提供约20小时的句子长度转录。该数据集的经典使用场景主要集中于构建多语言语音识别和语音合成系统，为研究人员提供了一种珍贵的学习和测试资源。

实际应用

在实际应用中，CMU Wilderness Multilingual Speech Dataset可以被用于开发多语言支持的语言学习软件、翻译服务和语音助手等。它为构建全球化的人工智能应用提供了基础数据支持，使得产品能够跨越语言障碍，服务于更广泛的用户群体。

衍生相关工作

基于CMU Wilderness Multilingual Speech Dataset，研究者们开展了一系列相关工作，如构建特定语言的语音合成模型、开发新的语音识别算法等。这些衍生工作推动了多语言语音处理技术的进步，为相关领域的学术研究和产业发展做出了贡献。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集