five

openslr/librispeech_asr

收藏
Hugging Face2025-07-25 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/openslr/librispeech_asr
下载链接
链接失效反馈
官方服务:
资源简介:
LibriSpeech是一个包含约1000小时16kHz英语朗读语音的语料库,数据来源于LibriVox项目的有声读物,并经过精心分段和对齐。该数据集支持自动语音识别(ASR)和音频说话人识别任务,主要用于训练模型进行语音到文本的转录。数据集分为clean和other两种配置,分别对应较低和较高单词错误率(WER)的说话人。数据集的结构包括音频文件路径、转录文本、说话人ID、章节ID等信息,并分为训练、验证和测试集。

LibriSpeech is a corpus containing approximately 1000 hours of 16 kHz English read speech, sourced from audiobooks of the LibriVox project, and has been meticulously segmented and aligned. This dataset supports automatic speech recognition (ASR) and audio speaker recognition tasks, and is mainly used for training models to perform speech-to-text transcription. The dataset is divided into two configurations: clean and other, which correspond to speakers with lower and higher word error rates (WER) respectively. Its structure includes information such as audio file paths, transcribed text, speaker IDs, chapter IDs, and the like, and is split into training, validation, and test sets.
提供机构:
openslr
原始信息汇总

数据集概述

基本信息

  • 数据集名称: LibriSpeech
  • 语言: 英语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据集大小: 100K<n<1M
  • 源数据: 原始数据
  • 任务类别: 自动语音识别, 音频分类
  • 任务ID: 说话人识别

数据集配置

配置名称: clean

  • 特征:
    • file: 字符串
    • audio: 音频,采样率16000
    • text: 字符串
    • speaker_id: 整数
    • chapter_id: 整数
    • id: 字符串
  • 分割:
    • train.100: 28539个样本,6619683041字节
    • train.360: 104014个样本,23898214592字节
    • validation: 2703个样本,359572231字节
    • test: 2620个样本,367705423字节
  • 下载大小: 30121377654字节
  • 数据集大小: 31245175287字节

配置名称: other

  • 特征:
    • file: 字符串
    • audio: 音频,采样率16000
    • text: 字符串
    • speaker_id: 整数
    • chapter_id: 整数
    • id: 字符串
  • 分割:
    • train.500: 148688个样本,31810256902字节
    • validation: 2864个样本,337283304字节
    • test: 2939个样本,352396474字节
  • 下载大小: 31236565377字节
  • 数据集大小: 32499936680字节

配置名称: all

  • 特征:
    • file: 字符串
    • audio: 音频,采样率16000
    • text: 字符串
    • speaker_id: 整数
    • chapter_id: 整数
    • id: 字符串
  • 分割:
    • train.clean.100: 28539个样本,6627791685字节
    • train.clean.360: 104014个样本,23927767570字节
    • train.other.500: 148688个样本,31852502880字节
    • validation.clean: 2703个样本,359505691字节
    • validation.other: 2864个样本,337213112字节
    • test.clean: 2620个样本,368449831字节
    • test.other: 2939个样本,353231518字节
  • 下载大小: 61357943031字节
  • 数据集大小: 63826462287字节
搜集汇总
数据集介绍
main_image_url
构建方式
LibriSpeech数据集的构建基于LibriVox项目中的公开领域有声读物,由Vassil Panayotov在Daniel Povey的协助下精心制作。数据集包含约1000小时的16kHz英语朗读语音,经过细致的分割和对齐处理。训练部分被划分为三个子集,分别约为100小时、360小时和500小时,以适应不同用户的需求。通过自动语音识别模型对音频进行处理,计算单词错误率(WER),并根据WER将说话者分为‘clean’和‘other’两类,以确保数据的质量和多样性。
特点
LibriSpeech数据集以其高质量的语音数据和广泛的应用场景著称。数据集包含多种配置,如‘clean’和‘other’,以满足不同精度和复杂度的需求。此外,数据集提供了详细的元数据,包括音频文件路径、解码后的音频数组、采样率、文本转录、说话者ID和章节ID,便于研究人员进行深入分析和模型训练。数据集的分割设计合理,包括训练、验证和测试集,确保了模型评估的准确性和可靠性。
使用方法
LibriSpeech数据集主要用于自动语音识别(ASR)和音频分类任务。用户可以通过访问数据集的音频和文本字段,进行模型的训练和评估。数据集支持多种配置,用户可以根据需求选择‘clean’或‘other’配置进行实验。在使用过程中,建议优先访问样本索引,再获取‘audio’列数据,以提高处理效率。数据集的合理分割和丰富的元数据支持,使得其在语音识别领域的研究和应用中具有广泛的价值。
背景与挑战
背景概述
LibriSpeech数据集是由Vassil Panayotov在Daniel Povey等人的协助下创建的,旨在提供一个大规模的英语语音识别基准。该数据集包含约1000小时的16kHz阅读英语语音,源自LibriVox项目中的有声读物。通过精心分割和校准,LibriSpeech数据集已成为自动语音识别(ASR)领域的重要资源,推动了语音识别技术的进步。其创建时间可追溯至2015年,主要研究人员包括Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur,他们的工作显著提升了语音识别模型的性能和鲁棒性。
当前挑战
LibriSpeech数据集在构建过程中面临多项挑战。首先,数据来源多样,需确保音频质量的一致性和可靠性。其次,语音识别任务本身具有复杂性,包括不同口音、背景噪音和语音变异等问题,这些都对模型的准确性提出了高要求。此外,数据集的分割和标注过程需要高度精确,以确保训练和测试集的平衡性和代表性。尽管如此,LibriSpeech数据集在推动语音识别技术发展方面发挥了重要作用,但其面临的挑战仍需进一步研究和解决。
常用场景
经典使用场景
LibriSpeech数据集在自动语音识别(ASR)领域中被广泛应用,其经典使用场景包括训练和评估语音识别模型。通过提供大量高质量的英语语音数据,该数据集使得研究人员能够开发和优化语音转文本系统,从而显著提升模型的准确性和鲁棒性。
实际应用
在实际应用中,LibriSpeech数据集被用于开发和测试语音识别系统,广泛应用于语音助手、语音翻译、语音搜索等领域。其高质量的语音数据和详细的标注信息,使得基于该数据集训练的模型在实际应用中表现出色,极大地提升了用户体验。
衍生相关工作
基于LibriSpeech数据集,许多相关研究工作得以展开,包括但不限于语音识别模型的改进、多语言语音识别系统的开发以及语音数据的增强技术。这些研究不仅推动了语音识别技术的发展,也为其他语音相关领域的研究提供了宝贵的数据资源和方法论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作