patrickvonplaten/librispeech_asr_self_contained

Name: patrickvonplaten/librispeech_asr_self_contained
Creator: patrickvonplaten
Published: 2022-10-24 17:48:37
License: 暂无描述

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/patrickvonplaten/librispeech_asr_self_contained

下载链接

链接失效反馈

官方服务：

资源简介：

LibriSpeech是一个包含约1000小时16kHz英语语音的语料库，数据来源于LibriVox项目的有声读物，经过精心分段和对齐。数据集主要用于自动语音识别（ASR）和音频说话人识别任务，分为clean和other两种配置，分别对应较低和较高的单词错误率（WER）的说话人。数据集由Vassil Panayotov、Guoguo Chen、Daniel Povey和Sanjeev Khudanpur创建，采用CC BY 4.0许可证。

LibriSpeech is a corpus containing approximately 1,000 hours of 16 kHz English speech, derived from audiobooks in the LibriVox project and meticulously segmented and aligned. The dataset is primarily used for automatic speech recognition (ASR) and audio speaker recognition tasks, and is divided into two configurations: clean and other, which correspond to speakers with lower and higher word error rates (WER) respectively. It was created by Vassil Panayotov, Guoguo Chen, Daniel Povey and Sanjeev Khudanpur, and is licensed under CC BY 4.0.

提供机构：

patrickvonplaten

原始信息汇总

数据集概述

名称: LibriSpeech

语言: 英语（en）

许可证: CC-BY-4.0

多语言性: 单语种

大小: 100K<n<1M

源数据: 原始数据

任务类别:

自动语音识别
音频分类

任务ID: 音频说话人识别

数据集描述

数据集总结: LibriSpeech是一个包含约1000小时16kHz英语朗读语音的语料库，由Vassil Panayotov在Daniel Povey的协助下准备。数据来源于LibriVox项目中的有声读物，并经过仔细的分割和校准。

支持的任务和排行榜:

自动语音识别（ASR）
音频说话人识别

语言:

英语，分为“clean”和“other”两个配置，根据自动转录的词错误率（WER）对说话人进行排名并分类。

数据集结构

数据实例: 每个数据点包含音频文件路径（通常称为file）及其转录文本（称为text），以及有关说话人和包含转录的章节的额外信息。

数据字段:

file: 下载的音频文件路径（.flac格式）。
audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。
text: 音频文件的转录。
id: 数据样本的唯一ID。
speaker_id: 说话人的唯一ID。
chapter_id: 包含转录的有声读物章节的ID。

数据分割:

训练部分分为三个子集，大小分别约为100小时、360小时和500小时。
“clean”和“other”数据分别根据WER排名进行分割，分为训练、验证和测试集。

数据集创建

数据集创建者:

Vassil Panayotov
Guoguo Chen
Daniel Povey
Sanjeev Khudanpur

许可证信息:

CC BY 4.0

引用信息:

@inproceedings{panayotov2015librispeech, title={Librispeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

LibriSpeech语料库是基于LibriVox项目中的公共领域有声读物构建而成，由Vassil Panayotov与Daniel Povey等人精心策划。原始音频数据经过精细的语音分割与文本对齐处理，最终形成了约1000小时、采样率为16kHz的英语朗读语音数据集。在构建过程中，研究者利用在WSJ数据集上训练的声学模型对语料进行自动识别，并根据词错误率将说话人划分为“clean”和“other”两类，其中低错误率者归为前者，高错误率者归为后者。训练集进一步细分为100小时、360小时和500小时三个子集，以便于不同规模的研究需求。

特点

该数据集的核心特点在于其规模宏大且层次分明，涵盖约1000小时的英语朗读语音，适用于自动语音识别与说话人识别任务。音频文件以FLAC格式存储，并附带解码后的音频数组和采样率信息，便于直接处理。数据集中每个样本均包含唯一的文件ID、说话人ID、章节ID以及精确的文本转录。特别地，“clean”与“other”两种配置分别对应高质量与高挑战性的语音数据，为模型性能评估提供了不同难度的基准。此外，数据集采用CC BY 4.0许可协议，确保了学术与商业用途的开放性。

使用方法

使用该数据集时，可通过HuggingFace Datasets库直接加载，例如使用`load_dataset('patrickvonplaten/librispeech_asr_self_contained', 'clean', split='train.100')`获取指定子集。数据实例包含`audio`字段，其中`array`键提供解码后的音频数组，`sampling_rate`键指定采样率（16000 Hz）。建议优先通过索引访问音频列（如`dataset[0]['audio']`），以避免大规模解码带来的性能开销。对于自动语音识别任务，可将音频数组与对应的`text`转录配对输入模型，并以词错误率作为评估指标。数据集的官方排行榜在PaperswithCode上维护，可参考最新模型性能。

背景与挑战

背景概述

LibriSpeech数据集由Vassil Panayotov、Guoguo Chen、Daniel Povey及Sanjeev Khudanpur于2015年创建，源自LibriVox项目的公共领域有声读物，经过精细的语音分割与对齐，构建了约1000小时、16kHz采样率的英文朗读语音语料库。该数据集旨在解决自动语音识别（ASR）领域大规模、高质量标注语音数据匮乏的核心问题，通过区分“clean”与“other”两种配置，分别代表低词错误率与高词错误率的说话人群体，为模型鲁棒性评估提供基准。其发布推动了端到端ASR模型的快速发展，成为语音识别领域最权威的基准测试之一，被广泛用于学术研究与工业应用，对说话人识别、音频分类等下游任务亦产生深远影响。

当前挑战

LibriSpeech所应对的领域挑战主要在于：真实场景下语音识别系统需处理多样化的说话人口音、录音质量及背景噪声，而数据集通过“clean”与“other”划分，模拟了从理想到复杂环境的识别难度梯度，促使模型提升泛化能力。构建过程中面临的挑战包括：从海量有声读物中自动提取并精准对齐音频与文本，需克服背景音乐、翻页声等干扰；说话人质量分级依赖WSJ模型转录的WER排序，但该模型本身存在领域偏差，可能导致分级不够精确；此外，数据规模庞大，分割为100、360、500小时子集以适配不同计算资源，但需保证各子集分布的均衡性与代表性，避免数据冗余或稀疏问题。

常用场景

经典使用场景

LibriSpeech数据集作为自动语音识别（ASR）领域的标杆性资源，其最经典的使用场景在于训练和评估端到端语音识别模型。该数据集包含了约1000小时、16kHz采样率的英文朗读语音，源自LibriVox有声读物项目，并经过精细的语音分割与文本对齐。研究者通常利用其“clean”和“other”两种配置来分别衡量模型在标准口音与噪声环境下的鲁棒性。通过将音频输入到诸如Transformer、Conformer或CTC/Attention混合架构的模型中，系统被要求输出对应的文字转录，最终以词错误率（WER）作为性能度量标准。这一标准化流程使得LibriSpeech成为对比不同ASR算法优劣的黄金基准。

解决学术问题

该数据集有效解决了学术研究中大规模、高质量标注语音数据匮乏的瓶颈问题。在LibriSpeech问世之前，许多ASR研究受限于数据规模，难以充分训练深度神经网络。LibriSpeech提供了超过1000小时的精确对齐语音-文本对，使得研究者能够深入探索语音识别中的声学建模、语言模型融合、序列到序列学习等核心问题。其精心划分的“clean”与“other”子集，为研究语音质量差异对识别精度的影响提供了可控的实验环境。此外，该数据集还催生了对说话人适应性、多任务学习以及无监督预训练等前沿课题的系统性研究，极大地推动了语音识别领域从传统混合模型向端到端范式的转变。

衍生相关工作

LibriSpeech数据集衍生了一系列具有深远影响的经典工作。其中，DeepSpeech 2（百度）和Listen, Attend and Spell（LAS）等模型在该数据集上验证了端到端语音识别的可行性。后续的wav2vec 2.0（Meta）和HuBERT（Meta）等自监督学习方法，利用LibriSpeech的无标签音频进行预训练，再通过少量标注数据进行微调，显著降低了ASR对大规模人工标注的依赖。此外，基于LibriSpeech的说话人识别任务也催生了如x-vector和ECAPA-TDNN等经典说话人嵌入方法。在语音合成领域，研究者甚至利用其文本与语音的对应关系进行跨模态学习。这些工作不仅巩固了LibriSpeech作为研究基准的地位，也持续推动着语音技术向更高效、更通用的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集