five

mosel

收藏
Hugging Face2024-10-02 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/FBK-MT/mosel
下载链接
链接失效反馈
官方服务:
资源简介:
MOSEL语料库是一个多语言数据集集合,包含多达95万小时的开放源代码语音录音,涵盖欧盟的24种官方语言。通过调查符合开放源代码许可的标记和未标记语音语料库来收集数据。它包括来自VoxPopuli和LibriLight的44.1万小时未标记语音的自动转录,使用Whisper large v3进行转录。数据集按语言使用2字母ISO代码分成文件夹,每个文件夹包含每个伪标记数据集的分割。数据集包含字段如'id'、'language'、'text'、'hall_repeated_ngrams'、'hall_long_word'和'hall_frequent_single_word'。数据集统计数据按每种语言的标记和未标记数据的小时数提供,总计950,192小时。
创建时间:
2024-09-23
原始信息汇总

MOSEL 数据集概述

数据集描述

  • 任务类别: 自动语音识别
  • 语言:
    • 英语 (en)
    • 保加利亚语 (bg)
    • 克罗地亚语 (hr)
    • 捷克语 (cs)
    • 丹麦语 (da)
    • 荷兰语 (nl)
    • 爱沙尼亚语 (et)
    • 芬兰语 (fi)
    • 法语 (fr)
    • 德语 (de)
    • 希腊语 (el)
    • 匈牙利语 (hu)
    • 爱尔兰语 (ga)
    • 意大利语 (it)
    • 拉脱维亚语 (lv)
    • 立陶宛语 (lt)
    • 马耳他语 (mt)
    • 波兰语 (pl)
    • 葡萄牙语 (pt)
    • 罗马尼亚语 (ro)
    • 斯洛伐克语 (sk)
    • 斯洛文尼亚语 (sl)
    • 西班牙语 (es)
    • 瑞典语 (sv)
  • 数据集名称: MOSEL
  • 许可证: CC-BY-4.0

数据集来源

  • 数据收集: 通过调查符合开源许可的标注和未标注语音语料库收集数据。
  • 自动转录: 使用 Whisper large v3 对 VoxPopuli 和 LibriLight 的 441k 小时未标注语音进行自动转录。
  • 数据分割: 由于 LibriLight 包含超过 Whisper 最大时长限制(30秒)的片段,因此将其分割为不超过 30秒的块。

数据集结构

  • 数据配置: 数据集按语言分为文件夹,使用 ISO 639-1 两字母代码表示语言。每个文件夹包含一个伪标注数据集的分割。
  • 数据字段:
    • id: 段落的字母数字标识符
    • language: 扩展语言名称(例如,"english")
    • text: 伪标签内容
    • hall_repeated_ngrams: 指示 text 中是否重复出现 n-gram,阈值为 4(n 为 1 到 2)或 3(n 为 3 到 5)
    • hall_long_word: 指示 text 中是否存在至少 40 个字符的单词
    • hall_frequent_single_word: 指示 text 是否仅由整个文本中最频繁的单个单词组成

数据集统计

语言 (LangID) 标注时长 (小时) 未标注时长 (小时) 总时长 (小时)
Bulgarian (bg) 111 17609 17720
Croatian (hr) 55 8106 8161
Czech (cs) 591 18705 19296
Danish (da) 20 13600 13620
Dutch (nl) 3395 19014 22409
English (en) 437239 84704 521943
Estonian (et) 60 10604 10664
Finnish (fi) 64 14200 14264
French (fr) 26984 22896 49880
German (de) 9236 23228 32464
Greek (el) 35 17703 17738
Hungarian (hu) 189 17701 17890
Irish (ga) 17 0 17
Italian (it) 3756 21933 25689
Latvian (lv) 173 13100 13273
Lithuanian (lt) 36 14400 14436
Maltese (mt) 19 9100 9119
Polish (pl) 510 21207 21717
Portuguese (pt) 5492 17526 23018
Romanian (ro) 121 17906 18021
Slovak (sk) 61 12100 12161
Slovenian (sl) 32 11300 11332
Spanish (es) 17471 21526 38997
Swedish (sv) 58 16300 16358
总计 505725 444467 950192

数据集创建

引用

@inproceedings{mosel, title = {{MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages}}, author = {Marco Gaido and Sara Papi and Luisa Bentivogli and Alessio Brutti and Mauro Cettolo and Roberto Gretter and Marco Matassoni and Mohamed Nabihand Matteo Negri}, booktitle = "Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2024", address = "Miami, United States", publisher = "Association for Computational Linguistics", }

数据集卡片联系

搜集汇总
数据集介绍
main_image_url
构建方式
MOSEL数据集通过整合多种开源语音语料库构建而成,涵盖了欧盟24种官方语言的语音数据,总计约950,000小时。数据来源包括VoxPopuli和LibriLight等开源语音库,其中441,000小时的未标注语音通过Whisper large v3模型自动转录生成。对于超过Whisper模型30秒时长限制的语音片段,数据集进行了分段处理,确保每段语音不超过30秒。所有数据均遵循开源许可协议,确保其合法性和可复用性。
特点
MOSEL数据集以其多语言性和大规模语音数据为显著特点,涵盖了从保加利亚语到瑞典语等多种欧洲语言。数据集不仅包含大量未标注的语音数据,还提供了自动生成的伪标签文本,并标注了文本中的重复n-gram、长单词及高频单字等特征。此外,数据集按语言分类存储,便于用户根据需求选择特定语言的数据进行训练或研究。
使用方法
MOSEL数据集适用于自动语音识别(ASR)和文本到语音(TTS)等任务。用户可通过Hugging Face平台访问数据集,按语言代码选择所需数据。数据集提供了详细的字段信息,如语音片段的唯一标识符、语言标签、伪标签文本及其质量标注。用户可直接加载数据用于模型训练,或参考GitHub仓库中的代码复现数据集的构建过程。
背景与挑战
背景概述
MOSEL数据集是一个多语言语音数据集,涵盖了欧盟24种官方语言,总时长高达950,000小时。该数据集由Marco Gaido、Sara Papi等研究人员主导,并由FAIR、Meetween和CINECA等机构资助,Fondazione Bruno Kessler负责共享。MOSEL的核心研究问题在于为开源语音基础模型的训练提供大规模、多语言的语音数据支持,特别是在自动语音识别(ASR)和文本到语音(TTS)任务中。该数据集通过整合VoxPopuli和LibriLight等开源语音语料库,利用Whisper模型进行自动转录,显著推动了多语言语音处理领域的研究与应用。
当前挑战
MOSEL数据集在构建和应用过程中面临多重挑战。首先,多语言数据的收集与标注需要处理不同语言的语音特征和语法结构,这对模型的泛化能力提出了高要求。其次,自动转录过程中,Whisper模型对长音频的处理存在限制,需将超过30秒的音频分割为短片段,这可能导致上下文信息的丢失。此外,数据集中部分语言的样本量较少,可能导致模型在这些语言上的表现不均衡。最后,尽管数据集规模庞大,但如何确保转录质量、减少噪声和错误标注仍是亟待解决的问题。
常用场景
经典使用场景
MOSEL数据集广泛应用于自动语音识别(ASR)和文本到语音(TTS)任务中,尤其是在多语言环境下。其包含的24种欧盟官方语言的语音数据,使得研究者能够在跨语言语音处理领域进行深入探索。通过Whisper模型生成的自动转录文本,MOSEL为语音识别模型的训练和评估提供了丰富的多语言语料库。
解决学术问题
MOSEL数据集解决了多语言语音识别中的语料稀缺问题,尤其是在低资源语言环境下。通过整合VoxPopuli和LibriLight等开源语音数据,MOSEL为研究者提供了大规模、高质量的语音转录数据,显著提升了多语言语音识别模型的性能。此外,其自动生成的伪标签为无监督学习和半监督学习提供了新的研究途径。
衍生相关工作
MOSEL数据集催生了一系列经典研究工作,尤其是在多语言语音识别和语音合成领域。基于MOSEL的研究成果包括改进的Whisper模型变体、多语言语音识别系统的优化方法,以及跨语言语音合成的创新技术。这些工作不仅推动了语音处理技术的发展,也为多语言语音应用的商业化奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作