mumospee_v1_fix

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/meetween/mumospee_v1_fix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个大规模多语言语音数据集，包含超过5398万条音频样本，总时长约121,957小时。数据主要包含38种语言，其中英语（54.01%）和中文（36.99%）占主导地位，其他语言包括日语、德语、法语等。数据集分为训练集（53,319,102条）、测试集（341,118条）和验证集（323,021条），平均每条音频时长8.13秒，转录文本平均16.5个单词。数据来源多样，主要包括Emilia（74.54%）、GigaSpeech（9.36%）和CoVoST（7.73%）等7个主要来源。许可证以CC-BY-4.0为主（80.03%）。该数据集适用于语音识别、语音合成等语音处理任务，特别适合多语言场景下的模型训练与评估。

创建时间：

2026-02-25

原始信息汇总

数据集概述

基本信息

数据集名称: meetween/mumospee_v1_fix
许可证: CC-BY-4.0
数据格式: Parquet 分片

整体统计

总样本数: 53,983,241
总音频时长: 121,957小时 08分钟 34.5秒 (约 121,957.1 小时)
平均样本时长: 8.13秒
平均转录文本长度: 16.5 个单词
总Parquet分片数: 29

划分集详情

划分集	样本数量	总时长	平均时长	平均单词数	分片数
训练集 (train)	53,319,102	120,878小时 42分钟 30.2秒	8.16秒	16.5	27
测试集 (test)	341,118	547小时 25分钟 08.3秒	5.78秒	10.3	1
验证集 (validation)	323,021	531小时 00分钟 56.0秒	5.92秒	10.4	1

语言分布

数据集包含多种语言，主要语言分布如下：

英语 (en): 29,158,043 个样本 (54.01%)，时长 66,374小时 54分钟 20.5秒 (54.42%)
中文 (zh): 19,969,319 个样本 (36.99%)，时长 49,922小时 33分钟 08.9秒 (40.93%)
日语 (ja): 869,665 个样本 (1.61%)，时长 1,715小时 27分钟 28.6秒 (1.41%)
德语 (de): 868,241 个样本 (1.61%)，时长 1,751小时 41分钟 54.2秒 (1.44%)
法语 (fr): 807,424 个样本 (1.50%)，时长 1,607小时 08分钟 32.1秒 (1.32%)
其他语言包括西班牙语、意大利语、捷克语、爱沙尼亚语、波兰语、斯洛文尼亚语、芬兰语、瑞典语、希腊语、葡萄牙语、罗马尼亚语、荷兰语、匈牙利语、立陶宛语、丹麦语、克罗地亚语、拉脱维亚语、马耳他语、斯洛伐克语、韩语、保加利亚语、加泰罗尼亚语、波斯语、阿拉伯语、蒙古语、印度尼西亚语、威尔士语、挪威尼诺斯克语、拉丁语、俄语、希伯来语、阿尔巴尼亚语、土耳其语、加利西亚语、乌克兰语、南非荷兰语、爪哇语、乌尔都语、塞尔维亚语、亚美尼亚语、挪威语等，样本数量均少于总体的0.2%。

标签/来源分布

来源	总样本数	总样本占比	总时长	总时长占比
Emilia	40,237,834	74.54%	101,585小时 04分钟 02.8秒	83.30%
GigaSpeech	5,053,116	9.36%	6,297小时 24分钟 07.6秒	5.16%
CoVoST	4,170,975	7.73%	6,519小时 01分钟 42.7秒	5.35%
MOSEL	2,300,046	4.26%	0.00秒	0.00%
PeopleSpeech	1,554,791	2.88%	5,987小时 42分钟 22.5秒	4.91%
LibriTTS	374,112	0.69%	585小时 37分钟 48.6秒	0.48%
Librispeech	292,367	0.54%	982小时 18分钟 30.3秒	0.81%

许可证分布

许可证	总样本数	总样本占比
CC-BY-4.0	43,204,359	80.03%
unknown	5,053,116	9.36%
CC0	4,170,975	7.73%
CC-BY;CC-BY-SA	1,554,791	2.88%

加载方式

使用 datasets 库加载数据集： python from datasets import load_dataset

加载所有划分集

dataset = load_dataset("meetween/mumospee")

加载特定划分集

train_data = load_dataset("meetween/mumospee", split="train") test_data = load_dataset("meetween/mumospee", split="test") validation_data = load_dataset("meetween/mumospee", split="validation")

备注

所有划分集（训练集、测试集、验证集）中均无无法解析时长的样本行。

搜集汇总

数据集介绍

构建方式

在语音识别与多语言语音合成研究领域，大规模高质量数据集的构建是推动技术进步的关键。mumospee_v1_fix数据集通过整合多个公开语音语料库而形成，其构建过程体现了数据聚合与清洗的严谨性。该数据集从Emilia、GigaSpeech、CoVoST、MOSEL、PeopleSpeech、LibriTTS及Librispeech等七个主要来源获取原始音频与对应文本，经过统一格式转换与质量筛选，最终组织成训练集、测试集和验证集三个标准划分。构建过程中，数据被处理为Parquet格式并分片存储，总计29个分片，确保了数据的高效存取与管理。

特点

该数据集在语音数据资源中展现出显著的规模与多样性特征。其总体规模庞大，包含近五千四百万个样本，总音频时长超过十二万小时，平均每个样本时长约为8秒，转录文本平均长度为16.5个单词。语言覆盖范围广泛，涵盖英语、中文、日语、德语、法语等超过四十种语言，其中英语和中文样本占据主导地位，分别占总样本量的54%和37%，为双语或多语言语音模型研究提供了丰富素材。数据来源与授权清晰，主要基于CC-BY-4.0、CC0等开放许可协议，保障了研究的合规性与可复现性。

使用方法

对于研究人员而言，利用该数据集进行实验具有便捷的接入流程。通过Hugging Face的`datasets`库，用户可以直接加载整个数据集或按需加载特定数据划分。使用`load_dataset`函数并指定数据集名称`"meetween/mumospee"`，即可获取包含训练集、测试集和验证集的DatasetDict对象。若需单独使用某个划分，可通过`split`参数指定为`"train"`、`"test"`或`"validation"`。加载后的数据以结构化格式呈现，便于后续的音频特征提取、文本对齐以及模型训练与评估任务的开展。

背景与挑战

背景概述

在语音识别与语音合成技术迅猛发展的背景下，多语言语音数据集的构建成为推动跨语言语音模型进步的关键。mumospee_v1_fix数据集作为一个大规模、多语言的语音-文本配对数据集，其创建旨在应对全球化背景下对多语言语音处理能力日益增长的需求。该数据集整合了来自多个公开语音语料库的资源，如Emilia、GigaSpeech、CoVoST等，涵盖了超过五十种语言，总时长接近十二万小时，其中英语和中文数据占据主导地位。通过汇集多样化的语音来源与广泛的语种覆盖，该数据集为训练鲁棒的多语言自动语音识别与语音合成系统提供了宝贵的资源，有望在语音技术领域促进更公平、更具包容性的模型发展。

当前挑战

该数据集致力于解决多语言语音识别与合成中的核心挑战，即如何构建一个能够均衡覆盖多种语言、同时保证高质量语音-文本对齐的大规模语料库。在领域层面，主要挑战包括处理不同语言间语音特性的巨大差异、应对低资源语言数据稀缺问题，以及确保跨语言语音模型的泛化能力。在构建过程中，挑战则体现为数据来源的异构性整合，例如协调来自Emilia、GigaSpeech等不同采集标准与许可协议的数据；处理多语言转录文本的标准化与对齐难题；以及管理超大规模数据带来的存储、处理与质量控制负担，这些因素共同增加了数据集构建的复杂性与技术门槛。

常用场景

经典使用场景

在语音识别与语音合成领域，大规模多语言语音数据集为模型训练提供了关键资源。mumospee_v1_fix数据集以其超过120,000小时的音频时长和涵盖英语、中文、日语、德语等数十种语言的多样性，成为构建端到端自动语音识别系统的经典选择。该数据集通过整合Emilia、GigaSpeech、CoVoST等多个高质量开源语音库，确保了音频与文本对齐的精确性，为研究者提供了标准化的训练、验证与测试划分，极大地促进了多语言语音模型的开发与评估。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作，例如基于其多语言特性开发的端到端语音识别架构，以及利用其大规模数据进行的自监督语音表示学习。这些工作不仅推动了Whisper、Wav2Vec等开源模型的性能提升，还催生了针对低资源语言的语音合成与识别竞赛。此外，数据集中的多源整合方法也为后续语音数据集的构建与标准化提供了重要参考，形成了语音技术生态中数据驱动创新的良性循环。

数据集最近研究