five

parler-tts/mls_eng_10k

收藏
Hugging Face2024-04-09 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/parler-tts/mls_eng_10k
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个10K小时的英语子集,源自Multilingual LibriSpeech(MLS)数据集的英语版本,适合语音研究。数据集来自LibriVox的有声读物,包含音频、转录和说话人ID等特征,并根据CC-BY-4.0许可。

This is a 10K-hour English subset derived from the English version of the Multilingual LibriSpeech (MLS) dataset, intended for speech research. Sourced from audiobooks on LibriVox, this dataset includes audio, transcriptions, speaker IDs and other relevant features, and is licensed under CC-BY-4.0.
提供机构:
parler-tts
原始信息汇总

数据集概述

名称: 10K hours of English MLS

语言: 英语(en)

许可证: 知识共享署名4.0国际许可(cc-by-4.0)

多语言性: 多语言

任务类别:

  • 自动语音识别
  • 文本到语音
  • 文本到音频

数据集大小:

  • 下载大小: 158461062068字节
  • 数据集大小: 158933334150.041字节

数据集特征:

  • 音频
  • 原始路径
  • 开始时间
  • 结束时间
  • 转录文本
  • 音频持续时间
  • 说话人ID
  • 书籍ID

数据集分割:

  • 训练集: 2420047个样本,158437701688.205字节
  • 验证集: 3807个样本,249691299.74字节
  • 测试集: 3769个样本,245941162.096字节

配置:

  • 默认配置
    • 开发集路径: data/dev-*
    • 测试集路径: data/test-*
    • 训练集路径: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音技术领域,大规模高质量数据集是推动模型性能提升的关键。parler-tts/mls_eng_10k数据集源自多语言LibriSpeech(MLS)项目,其构建过程体现了严谨的学术规范。该数据集从LibriVox平台的有声读物中提取原始音频,通过专家指导与群体协作相结合的方式,对英语语音内容进行精细化标注。原始数据经过系统化的切割与对齐处理,确保每个音频片段均配有精确的时间戳和对应的文本转录。最终形成的子集包含约一万小时的英语语音,数据以流式友好的结构重新组织,便于高效访问与处理,为语音识别与合成研究提供了坚实的资源基础。
特点
作为语音研究领域的重要资源,该数据集展现出多方面的显著特征。其核心优势在于规模宏大,精选的英语子集提供超过一万小时的纯净语音数据,覆盖丰富的说话人与文本内容。数据具备精细的结构化信息,每条样本均包含音频波形、起止时间、准确转录文本、说话人标识及所属书籍编号,支持多维度分析。音频来源于公开领域的朗读内容,音质清晰,语境自然,兼具学术严谨性与实用性。数据集遵循CC-BY-4.0许可协议,保障了研究的开放性与合规性,为语音模型的训练与评估提供了可靠且全面的基准。
使用方法
在语音计算研究中,有效利用大规模数据集是实验成功的前提。研究者可通过HuggingFace平台直接加载该数据集,其流式优化结构支持高效的数据读取与迭代。数据集已预分割为训练集、开发集和测试集,便于直接用于模型训练、验证与性能测试。典型应用场景包括自动语音识别系统的端到端训练、文本到语音合成模型的声学建模,以及语音表示学习等任务。使用时应遵循既定划分,以评估模型泛化能力,并可结合说话人ID与书籍ID进行说话人自适应或领域特异性分析。引用时需注明原始文献,以符合学术规范。
背景与挑战
背景概述
在语音技术迅猛发展的背景下,大规模、高质量的语音数据集成为推动自动语音识别与文本转语音等任务进步的关键资源。由Meta AI等机构的研究人员于2020年创建的Multilingual LibriSpeech(MLS)数据集,正是为应对多语言语音处理需求而设计的。该数据集基于LibriVox的有声读物构建,涵盖包括英语在内的八种语言,其中英语部分尤为丰富,提供了超过四万小时的语音数据。其核心研究问题在于如何通过大规模、多样化的语音样本,提升语音模型的泛化能力与跨语言性能,对语音识别、合成及多模态研究产生了深远影响,促进了开源语音生态的繁荣。
当前挑战
该数据集旨在解决语音识别与文本转语音任务中的核心挑战,包括处理复杂声学环境下的语音变异、适应多样化的说话人风格与口音,以及实现高精度的多语言语音建模。在构建过程中,研究人员面临诸多困难:原始有声读物需经过精细的切割与对齐,以确保语音片段与文本转录的精确匹配;数据质量控制要求严格,需排除背景噪声与录音瑕疵;同时,多语言数据的平衡与标注需要跨语言专家协作,以维护语言间的代表性与一致性。这些挑战共同塑造了数据集的最终形态,为后续研究提供了坚实且具有挑战性的基准。
常用场景
经典使用场景
在语音技术研究领域,大规模高质量语音数据是推动模型性能突破的关键基石。parler-tts/mls_eng_10k数据集以其一万小时的英语朗读语音,为自动语音识别和文本到语音合成任务提供了经典训练与评估平台。该数据集源自LibriVox的有声读物,语音清晰且文本对应准确,常被用于训练端到端语音识别模型,或作为预训练语料提升模型在复杂声学环境下的鲁棒性。其标准化的开发集、测试集划分,亦为模型性能的公平比较奠定了坚实基础。
实际应用
在实际应用层面,基于该数据集训练的模型已渗透至多个产业环节。在智能助理与交互式语音应答系统中,它提升了语音识别的准确率与对各类口音、语速的适应性。在无障碍技术领域,它为高自然度的文本转语音引擎提供了数据支撑,改善视障人士的信息获取体验。此外,在音视频内容生产与媒体归档中,自动生成字幕与音频索引的技术也受益于此数据集带来的性能提升。其开源特性更降低了企业与研究机构的入门门槛,加速了语音技术的普惠化进程。
衍生相关工作
围绕此数据集,学术界催生了一系列具有影响力的衍生工作。在模型架构方面,它常被用于训练与评估如Conformer、Wav2Vec 2.0等前沿语音识别模型,验证其在大规模数据下的有效性。在自监督与半监督学习领域,该数据集是构建语音预训练模型(例如HuBERT)的重要语料库之一,相关研究探索了如何从无标注或弱标注音频中学习强大表征。同时,在多任务学习与语音翻译等交叉任务中,该数据集也常作为基准数据,用于探究语音与多模态信息的联合建模,持续推动着语音技术边界的拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作