five

mumospee_v1_fix

收藏
Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/meetween/mumospee_v1_fix
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模多语言语音数据集,包含超过5398万条音频样本,总时长约121,957小时。数据主要包含38种语言,其中英语(54.01%)和中文(36.99%)占主导地位,其他语言包括日语、德语、法语等。数据集分为训练集(53,319,102条)、测试集(341,118条)和验证集(323,021条),平均每条音频时长8.13秒,转录文本平均16.5个单词。数据来源多样,主要包括Emilia(74.54%)、GigaSpeech(9.36%)和CoVoST(7.73%)等7个主要来源。许可证以CC-BY-4.0为主(80.03%)。该数据集适用于语音识别、语音合成等语音处理任务,特别适合多语言场景下的模型训练与评估。
创建时间:
2026-02-25
原始信息汇总

数据集概述

基本信息

  • 数据集名称: meetween/mumospee_v1_fix
  • 许可证: CC-BY-4.0
  • 数据格式: Parquet 分片

整体统计

  • 总样本数: 53,983,241
  • 总音频时长: 121,957小时 08分钟 34.5秒 (约 121,957.1 小时)
  • 平均样本时长: 8.13秒
  • 平均转录文本长度: 16.5 个单词
  • 总Parquet分片数: 29

划分集详情

划分集 样本数量 总时长 平均时长 平均单词数 分片数
训练集 (train) 53,319,102 120,878小时 42分钟 30.2秒 8.16秒 16.5 27
测试集 (test) 341,118 547小时 25分钟 08.3秒 5.78秒 10.3 1
验证集 (validation) 323,021 531小时 00分钟 56.0秒 5.92秒 10.4 1

语言分布

数据集包含多种语言,主要语言分布如下:

  • 英语 (en): 29,158,043 个样本 (54.01%),时长 66,374小时 54分钟 20.5秒 (54.42%)
  • 中文 (zh): 19,969,319 个样本 (36.99%),时长 49,922小时 33分钟 08.9秒 (40.93%)
  • 日语 (ja): 869,665 个样本 (1.61%),时长 1,715小时 27分钟 28.6秒 (1.41%)
  • 德语 (de): 868,241 个样本 (1.61%),时长 1,751小时 41分钟 54.2秒 (1.44%)
  • 法语 (fr): 807,424 个样本 (1.50%),时长 1,607小时 08分钟 32.1秒 (1.32%)
  • 其他语言包括西班牙语、意大利语、捷克语、爱沙尼亚语、波兰语、斯洛文尼亚语、芬兰语、瑞典语、希腊语、葡萄牙语、罗马尼亚语、荷兰语、匈牙利语、立陶宛语、丹麦语、克罗地亚语、拉脱维亚语、马耳他语、斯洛伐克语、韩语、保加利亚语、加泰罗尼亚语、波斯语、阿拉伯语、蒙古语、印度尼西亚语、威尔士语、挪威尼诺斯克语、拉丁语、俄语、希伯来语、阿尔巴尼亚语、土耳其语、加利西亚语、乌克兰语、南非荷兰语、爪哇语、乌尔都语、塞尔维亚语、亚美尼亚语、挪威语等,样本数量均少于总体的0.2%。

标签/来源分布

来源 总样本数 总样本占比 总时长 总时长占比
Emilia 40,237,834 74.54% 101,585小时 04分钟 02.8秒 83.30%
GigaSpeech 5,053,116 9.36% 6,297小时 24分钟 07.6秒 5.16%
CoVoST 4,170,975 7.73% 6,519小时 01分钟 42.7秒 5.35%
MOSEL 2,300,046 4.26% 0.00秒 0.00%
PeopleSpeech 1,554,791 2.88% 5,987小时 42分钟 22.5秒 4.91%
LibriTTS 374,112 0.69% 585小时 37分钟 48.6秒 0.48%
Librispeech 292,367 0.54% 982小时 18分钟 30.3秒 0.81%

许可证分布

许可证 总样本数 总样本占比
CC-BY-4.0 43,204,359 80.03%
unknown 5,053,116 9.36%
CC0 4,170,975 7.73%
CC-BY;CC-BY-SA 1,554,791 2.88%

加载方式

使用 datasets 库加载数据集: python from datasets import load_dataset

加载所有划分集

dataset = load_dataset("meetween/mumospee")

加载特定划分集

train_data = load_dataset("meetween/mumospee", split="train") test_data = load_dataset("meetween/mumospee", split="test") validation_data = load_dataset("meetween/mumospee", split="validation")

备注

  • 所有划分集(训练集、测试集、验证集)中均无无法解析时长的样本行。
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与多语言语音合成研究领域,大规模高质量数据集的构建是推动技术进步的关键。mumospee_v1_fix数据集通过整合多个公开语音语料库而形成,其构建过程体现了数据聚合与清洗的严谨性。该数据集从Emilia、GigaSpeech、CoVoST、MOSEL、PeopleSpeech、LibriTTS及Librispeech等七个主要来源获取原始音频与对应文本,经过统一格式转换与质量筛选,最终组织成训练集、测试集和验证集三个标准划分。构建过程中,数据被处理为Parquet格式并分片存储,总计29个分片,确保了数据的高效存取与管理。
特点
该数据集在语音数据资源中展现出显著的规模与多样性特征。其总体规模庞大,包含近五千四百万个样本,总音频时长超过十二万小时,平均每个样本时长约为8秒,转录文本平均长度为16.5个单词。语言覆盖范围广泛,涵盖英语、中文、日语、德语、法语等超过四十种语言,其中英语和中文样本占据主导地位,分别占总样本量的54%和37%,为双语或多语言语音模型研究提供了丰富素材。数据来源与授权清晰,主要基于CC-BY-4.0、CC0等开放许可协议,保障了研究的合规性与可复现性。
使用方法
对于研究人员而言,利用该数据集进行实验具有便捷的接入流程。通过Hugging Face的`datasets`库,用户可以直接加载整个数据集或按需加载特定数据划分。使用`load_dataset`函数并指定数据集名称`"meetween/mumospee"`,即可获取包含训练集、测试集和验证集的DatasetDict对象。若需单独使用某个划分,可通过`split`参数指定为`"train"`、`"test"`或`"validation"`。加载后的数据以结构化格式呈现,便于后续的音频特征提取、文本对齐以及模型训练与评估任务的开展。
背景与挑战
背景概述
在语音识别与语音合成技术迅猛发展的背景下,多语言语音数据集的构建成为推动跨语言语音模型进步的关键。mumospee_v1_fix数据集作为一个大规模、多语言的语音-文本配对数据集,其创建旨在应对全球化背景下对多语言语音处理能力日益增长的需求。该数据集整合了来自多个公开语音语料库的资源,如Emilia、GigaSpeech、CoVoST等,涵盖了超过五十种语言,总时长接近十二万小时,其中英语和中文数据占据主导地位。通过汇集多样化的语音来源与广泛的语种覆盖,该数据集为训练鲁棒的多语言自动语音识别与语音合成系统提供了宝贵的资源,有望在语音技术领域促进更公平、更具包容性的模型发展。
当前挑战
该数据集致力于解决多语言语音识别与合成中的核心挑战,即如何构建一个能够均衡覆盖多种语言、同时保证高质量语音-文本对齐的大规模语料库。在领域层面,主要挑战包括处理不同语言间语音特性的巨大差异、应对低资源语言数据稀缺问题,以及确保跨语言语音模型的泛化能力。在构建过程中,挑战则体现为数据来源的异构性整合,例如协调来自Emilia、GigaSpeech等不同采集标准与许可协议的数据;处理多语言转录文本的标准化与对齐难题;以及管理超大规模数据带来的存储、处理与质量控制负担,这些因素共同增加了数据集构建的复杂性与技术门槛。
常用场景
经典使用场景
在语音识别与语音合成领域,大规模多语言语音数据集为模型训练提供了关键资源。mumospee_v1_fix数据集以其超过120,000小时的音频时长和涵盖英语、中文、日语、德语等数十种语言的多样性,成为构建端到端自动语音识别系统的经典选择。该数据集通过整合Emilia、GigaSpeech、CoVoST等多个高质量开源语音库,确保了音频与文本对齐的精确性,为研究者提供了标准化的训练、验证与测试划分,极大地促进了多语言语音模型的开发与评估。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,例如基于其多语言特性开发的端到端语音识别架构,以及利用其大规模数据进行的自监督语音表示学习。这些工作不仅推动了Whisper、Wav2Vec等开源模型的性能提升,还催生了针对低资源语言的语音合成与识别竞赛。此外,数据集中的多源整合方法也为后续语音数据集的构建与标准化提供了重要参考,形成了语音技术生态中数据驱动创新的良性循环。
数据集最近研究
最新研究方向
在语音识别与多语言处理领域,大规模语音数据集正成为推动模型泛化能力的关键资源。mumospee_v1_fix数据集以其超过1.2万小时的音频时长和涵盖40余种语言的多样性,为前沿研究提供了丰富素材。当前研究热点聚焦于跨语言语音识别模型的零样本迁移学习,利用该数据集中英语、中文等主要语言的高质量样本,结合低资源语言的有限数据,探索模型在未见语言上的适应性。同时,该数据集整合了多个开源语音库,如CoVoST和GigaSpeech,促进了端到端语音翻译与语音合成任务的联合优化,为构建统一的多模态语音处理框架奠定基础。这些研究方向不仅响应了全球化背景下多语言交互的迫切需求,也为语音技术的公平性与包容性提供了数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作