MaSS

Name: MaSS
Creator: OpenDataLab
Published: 2026-05-17 09:30:26
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/MaSS

下载链接

链接失效反馈

官方服务：

资源简介：

MaSS (Multilingual corpus of Sentence-aligned Spoken utterances) 是 CMU Wilderness Multilingual Speech Dataset 的扩展，这是一个基于新约记录阅读的语音数据集。 MaSS 通过提供一个包含 8,130 种语言（56 种语言对）的 8,130 个平行口语的大型且干净的数据集来扩展它。涵盖的语言有：巴斯克语、英语、芬兰语、法语、匈牙利语、罗马尼亚语、俄语和西班牙语。

MaSS (Multilingual corpus of Sentence-aligned Spoken utterances) is an extension of the CMU Wilderness Multilingual Speech Dataset, a speech dataset based on readings of the New Testament. MaSS expands it by providing a large, clean dataset of 8,130 parallel spoken utterances spanning 56 language pairs across 8 languages. The covered languages include Basque, English, Finnish, French, Hungarian, Romanian, Russian, and Spanish.

提供机构：

OpenDataLab

创建时间：

2022-08-16

搜集汇总

数据集介绍