MaSS

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/getalp/mass-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MaSS是一个大型且干净的多语言句子对齐口语语料库，从圣经中提取。尽管版权原因无法共享音频文件，但提供了提取流程和相关资源，支持多种语言的语音数据处理。

MaSS is a large and clean multilingual sentence-aligned spoken corpus, extracted from the Bible. Although the audio files cannot be shared due to copyright reasons, the extraction process and related resources are provided, supporting speech data processing in multiple languages.

创建时间：

2019-03-05

原始信息汇总

数据集概述

数据集名称

MaSS - Multilingual corpus of Sentence-aligned Spoken utterances

数据集内容

文本格网：提供每种语言的文本格网，由Maus强制对齐器生成。
最终文本输出和段落文本格网：包括最终的文本输出和相应的段落文本格网。
Mel滤波器组频谱图：提供Mel滤波器组频谱图，用于论文中的实验。

数据集结构

数据集文件夹内，每种语言包含以下内容：
- 对齐文本格网（来自Maus强制对齐器）
- 最终文本输出和段落文本格网
- Mel滤波器组频谱图

数据获取

由于版权原因，不提供音频文件，但提供提取流程。
音频文件需从bible.is下载，并使用提供的脚本进行转换和对齐。
原始章节文本文件不再可从网站下载，但数据集提供这些文件。

数据处理流程

下载音频章节：从特定链接下载不同语言的音频文件。
数据对齐：使用Maus强制对齐器对数据进行对齐。
获取语音对齐：在诗句级别对音频进行切片。
ID等效性：提供Python脚本以翻译ID。
生成CSV文件：使用脚本生成列出每种语言可用诗句的CSV文件。

实验模型

论文中提出的语音到语音检索基线模型可在此处获取。

引用信息

使用此数据集时，请使用提供的BibTeX进行引用。

团队与联系方式

主要联系邮箱：first.last-name@univ-grenoble-alpes.fr

搜集汇总

数据集介绍

构建方式

MaSS数据集的构建基于从《圣经》中提取的多语言对齐语音语料。首先，通过bible.is平台下载各语言版本的《圣经》音频，并将其转换为单声道格式。随后，利用Maus强制对齐工具对音频进行对齐处理，生成对齐的文本网格文件。接着，基于对齐结果，将音频按章节切分为更细粒度的语音片段。最后，通过脚本生成各语言间的ID映射，并创建包含各语言共有章节的CSV文件，以确保多语言数据的对齐性和一致性。

特点

MaSS数据集的核心特点在于其大规模、多语言和高质量的语音对齐特性。该数据集涵盖了多种语言的《圣经》语音数据，并通过强制对齐技术确保了语音与文本的精确匹配。此外，数据集提供了Mel滤波器组频谱图，适用于语音处理实验。其多语言对齐的特性使得该数据集在跨语言语音识别和翻译任务中具有显著优势。

使用方法

MaSS数据集的使用方法相对直观。用户可通过提供的脚本下载音频并进行对齐处理，生成所需的语音片段。数据集中的Mel滤波器组频谱图可直接用于语音识别或语音合成模型的训练。此外，通过提供的CSV文件，用户可以快速筛选出各语言共有的章节，便于跨语言任务的实验设计。对于新语言的扩展，用户可参考提供的对齐流程进行数据集的扩展和定制。

背景与挑战

背景概述

MaSS数据集，全称为Multilingual corpus of Sentence-aligned Spoken utterances，是由卡内基梅隆大学（CMU）的研究团队于2020年推出的一个大规模多语言语音对齐语料库。该数据集的核心研究问题在于从《圣经》中提取并对齐多语言的语音和文本数据，旨在为语音识别、机器翻译和跨语言语音检索等领域提供高质量的多语言资源。MaSS数据集的创建不仅填补了多语言语音对齐领域的空白，还为相关研究提供了宝贵的实验数据，推动了多语言语音处理技术的发展。

当前挑战

MaSS数据集在构建过程中面临了多项挑战。首先，由于版权限制，音频文件无法直接共享，研究团队仅提供了提取音频的管道，这增加了数据获取的复杂性。其次，多语言语音的对齐过程涉及复杂的语音处理技术，如强制对齐和语音分割，这些步骤对算法的精确性和鲁棒性提出了高要求。此外，不同语言之间的文本和语音对齐存在差异，确保跨语言ID的一致性也是一个技术难点。最后，数据集的构建需要处理大量语言和文本资源，如何高效地管理和处理这些数据也是一大挑战。

常用场景

经典使用场景

MaSS数据集的经典使用场景主要集中在多语言语音对齐和跨语言语音检索任务中。由于其提供了多种语言的句级对齐语音数据，研究者可以利用该数据集训练和评估多语言语音识别、语音翻译以及跨语言语音检索模型。通过该数据集，研究者能够探索不同语言间的语音特征差异，并开发出更加鲁棒的多语言语音处理系统。

实际应用

MaSS数据集在实际应用中具有广泛的前景，尤其是在多语言语音识别、语音翻译和跨语言语音检索系统中。例如，该数据集可以用于开发多语言语音助手，支持用户以不同语言进行语音输入和输出。此外，MaSS还可以应用于多语言教育工具，帮助学习者通过语音交互提高语言能力。在跨文化交流和国际合作中，该数据集也为开发更加智能和高效的语音通信系统提供了基础。

衍生相关工作

基于MaSS数据集，研究者们开发了多种多语言语音处理模型和工具。例如，相关工作包括多语言语音识别模型的训练、跨语言语音翻译系统的构建以及跨语言语音检索算法的优化。此外，MaSS还激发了针对特定语言对的语音处理研究，推动了多语言语音数据的扩展和应用。这些衍生工作不仅丰富了多语言语音处理的理论基础，也为实际应用提供了强有力的支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集