librivox-tracks-vad

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/ChristianYang/librivox-tracks-vad

下载链接

链接失效反馈

官方服务：

资源简介：

librivox-tracks-vad数据集是从`pykeio/librivox-tracks`经过单朗读者过滤和Silero VAD分割处理生成的。该数据集适用于自动语音识别任务，语言为英语。数据以Parquet格式存储，包含训练集的所有话语（`split`始终为`train`），每条记录包含源元数据、单声道WAV音频数据（`audio_bytes`）和采样率（`sampling_rate`）。数据收集遵循一个全局总音频时长预算（具体参见运行清单或脚本参数，默认为`(2442/5994)*3600 * multiplier`秒）。

The librivox-tracks-vad dataset is generated from `pykeio/librivox-tracks` after single-reader filtering and Silero VAD segmentation. This dataset is suitable for automatic speech recognition tasks and is in English. The data is stored in Parquet format, containing all utterances from the training set (where `split` is always `train`), with each record including source metadata, mono WAV audio data (`audio_bytes`), and sampling rate (`sampling_rate`). Data collection follows a global total audio duration budget (see the run list or script parameters for details, default is `(2442/5994)*3600 * multiplier` seconds).

创建时间：

2026-04-22

原始信息汇总

数据集概述：librivox-tracks-vad

数据集名称: librivox-tracks-vad
任务类别: 自动语音识别（automatic-speech-recognition）
语言: 英语（en）
许可证: 其他（other）

数据集来源与处理

本数据集基于 pykeio/librivox-tracks 数据集构建，经过了以下处理步骤：

单读者过滤: 仅保留由单一位读者朗读的音频片段。
VAD 分割: 使用 Silero VAD（语音活动检测）技术对原始音频进行分割。

数据文件

数据位置: data/train-*.parquet
数据切分: 所有数据均属于 train 切分（split 始终为 train）。
采集规则: 数据收集直到达到预设的全局总音频预算为止。默认预算为 (2442/5994)*3600 * multiplier 秒。

每条数据包含的字段

每行数据存储以下内容：

源元数据: 原始录音的来源信息。
单声道 WAV 数据: 以 audio_bytes 字段存储的音频二进制数据。
采样率: 以 sampling_rate 字段表示。

搜集汇总

数据集介绍

构建方式

该数据集源于对LibriVox公开有声书语料库的深度加工与再组织。其构建过程涵盖两个核心阶段：首先，从`pykeio/librivox-tracks`中筛选出单人朗读者录制的音频片段，剔除多人干扰或重叠语音的轨段；随后，引入Silero语音活动检测（VAD）模型对筛选后的音频实施精细化切分，精准剥离静音与非语音片段，从而生成高纯度的语音片段集合。数据集的容量受全局音频预算约束，默认以`(2442/5994)*3600 * multiplier`秒为阈值，在达到该预算时停止采集，所有数据均归入训练集，并以Parquet格式存储。

特点

该数据集在语音识别领域展现出显著的技术特质：其一，专注于英文单声道音频，采样率与WAV载荷保持原始录音的一致性，确保了模型输入信号的真实性与保真度；其二，通过Silero VAD的智能分割，语音起始与终止点被精确标注，有效降低了非语音时段对模型训练的噪声干扰；其三，每一行样本均附带完整来源元数据与二进制音频数据（`audio_bytes`），便于研究者按需解压并进行下游处理。这些特性使其特别适用于低资源场景下的声学模型微调或语音端点检测任务的评估。

使用方法

使用该数据集时，推荐采用HuggingFace的`datasets`库直接加载Parquet文件，通过`load_dataset`函数指定数据路径并解码`audio_bytes`列为音频数组。由于所有样本已按统一格式整理为`train`划分，研究者可直接将其接入基于PyTorch或TensorFlow的自动语音识别（ASR）流水线。在预处理阶段，需配置`sampling_rate`与声道数匹配模型要求，并注意全局音频预算可能引发的数据量级差异，建议在训练前按需进行时长统计分析或数据扩充。

背景与挑战

背景概述

语音识别领域的发展高度依赖于大规模、高质量的数据集以驱动模型性能的提升。在这一背景下，librivox-tracks-vad数据集应运而生，它由pykeio团队于近年创建，基于LibriVox公共领域有声读物资源，针对自动语音识别任务进行精心构建。该数据集的核心研究问题在于如何从海量多说话者的音频中，通过单说话者过滤和基于Silero VAD的语音活动检测分割，生成干净、高效的语音片段。作为对原始librivox-tracks的精细加工产物，它通过控制全局音频预算来平衡数据规模，为监督式语音识别模型提供了可靠且可控的训练资源，对推动低资源声学建模及鲁棒性研究具有重要支撑作用。

当前挑战

该数据集所解决的领域挑战主要在于语音识别场景中数据质量与噪声控制问题。原始LibriVox音频常包含背景杂音、多说话者重叠及无效静音，直接使用会导致模型泛化能力下降。因此，librivox-tracks-vad通过两步流程应对这一难题：一是应用单说话者过滤算法剔除发音不纯的片段，确保每个音频样本的声学一致性；二是采用Silero VAD进行精确语音活动分割，将长时间音频切分为短时有效单元。构建过程中还面临全局音频预算分配的挑战：如何从不同长度的有声书录音中抽取代表性样本，同时满足预设时长配额，需要复杂的采样策略以避免数据偏差。这些精细操作使得数据集在保真度与可控性之间取得了平衡。

常用场景

经典使用场景

librivox-tracks-vad数据集在自动语音识别领域具有广泛的应用价值，尤其适用于训练和评估语音活动检测系统。该数据集通过Silero VAD对Librivox有声读物进行分割，提供了高质量的语音片段，同时经过单读者筛选，确保了音频内容的一致性和纯净性。研究人员常利用该数据集进行语音端点检测、说话人分割以及声学模型的预训练任务，其清晰的音频分割边界和标注信息为相关模型的性能评估提供了可靠基准。

解决学术问题

该数据集有效解决了语音识别研究中非语音段噪声干扰和语料来源混杂的学术挑战。通过VAD技术精准剔除沉默、呼吸等非语言内容，大幅降低了模型训练中的噪声污染，提升了声学模型的鲁棒性。同时，单读者筛选策略消除了多人对话带来的标注复杂性，使研究者能够聚焦于单一说话人场景下的语音特征学习。这一设计显著推动了鲁棒语音识别、端点检测精度提升及低资源场景下语音模型泛化能力的研究进展。

衍生相关工作

基于该数据集衍生的经典工作包括结合Silero VAD的语音分割流水线优化、多说话人场景下的迁移学习方法，以及利用其纯净语音片段训练的音素识别模型。研究者还将其与Wav2Vec等自监督学习框架结合，探索无标注语音数据的表征学习。此外，该数据集被用于评估不同VAD算法在长录音上的计算效率，催生了轻量级实时语音活动检测器的设计思路，为边缘设备上的语音处理提供了创新解决方案。

以上内容由遇见数据集搜集并总结生成