librispeech_asr_test_vad

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/guynich/librispeech_asr_test_vad

下载链接

链接失效反馈

官方服务：

资源简介：

基于librispeech_asr的语音活动检测（VAD）测试数据集，包含语音存在标记和置信度标记两个二元特征，适用于测试VAD模型的鲁棒性。

A Speech Activity Detection (VAD) test dataset based on LibriSpeech ASR, which includes two binary features: speech presence label and confidence label, and is suitable for testing the robustness of VAD models.

创建时间：

2025-05-12

原始信息汇总

数据集概述

基本信息

名称: librispeech_asr_test_vad
语言: 英语 (en)
标签: 语音 (speech)
许可证: CC BY 4.0 (cc-by-4.0)
任务类别: 文本分类 (text-classification)

数据集描述

基础数据: 基于 librispeech_asr 数据集中的 test.clean 和 test.other 分割。
主要特征:
- speech: 二进制特征，表示语音存在 ([0, 1])，通过动态阈值方法和背景噪声估计计算。
- confidence: 后处理标志，用于修正语音中的瞬时丢失。默认值为1，在语音到静音转换后的约0.1秒内切换为0。

数据统计

分割	活跃语音时长 (小时)	置信度 (%)
test.clean	5.4	93.2
test.other	5.3	92.6

适用场景

适合与外部噪声样本混合，测试语音活动检测 (VAD) 的鲁棒性。

示例数据

包含音频样本和 speech 特征的示例图。
示例展示了自然短暂停顿期间的 speech 特征丢失。

使用示例

python import datasets import numpy as np from sklearn.metrics import roc_auc_score

dataset = datasets.load_dataset("guynich/librispeech_asr_test_vad")

audio = dataset["test.clean"][0]["audio"]["array"] speech = dataset["test.clean"][0]["speech"]

计算语音活动概率

speech_probs = vad_model(audio)

计算AUC

roc_auc = roc_auc_score(speech, speech_probs)

模型评估示例

使用 Silero VAD 模型在 test.clean 分割上的AUC图示例。
通过 confidence 值过滤低置信度帧可提高精度。

许可证信息

与源数据集 librispeech_asr 相同的许可证: CC BY 4.0。

引用信息

@inproceedings{panayotov2015librispeech, title={Librispeech: an ASR corpus based on public domain audio books}, author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev}, booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on}, pages={5206--5210}, year={2015}, organization={IEEE} }

搜集汇总

数据集介绍

构建方式

该数据集基于LibriSpeech ASR语料库中的`test.clean`和`test.other`分割构建，专注于语音活动检测（VAD）任务。通过动态阈值方法和背景噪声估计技术，生成了二进制特征`speech`，用于标记语音存在与否。同时引入`confidence`特征，以修正语音到静默转换过程中的瞬时丢失，提升数据可靠性。数据经过平滑处理，确保在低背景噪声环境下仍能有效测试VAD模型的鲁棒性。

使用方法

使用该数据集时，VAD模型需支持以512个音频样本为块单位进行处理，采样率为16kHz。评估流程包括计算语音概率与标注`speech`特征的ROC AUC分数，并可选择通过`confidence`特征过滤低置信度帧以提升精度。示例代码展示了如何加载数据、运行模型预测及计算性能指标，同时支持对瞬时丢失现象的特殊处理，为真实场景下的VAD性能评估提供灵活框架。

背景与挑战

背景概述

Librispeech_asr_test_vad数据集源于著名的LibriSpeech ASR语料库，由Vassil Panayotov等学者于2015年构建，旨在推动自动语音识别（ASR）领域的研究。该数据集专注于语音活动检测（VAD）任务，通过提取LibriSpeech中的test.clean和test.other子集，并引入二进制特征标注，为VAD模型的性能评估提供了标准化测试平台。其低背景噪声的特性，使得研究者能够精准评估模型在纯净语音环境下的表现，同时为后续添加外部噪声以测试模型鲁棒性奠定了基础。该数据集在语音信号处理领域具有重要影响力，成为VAD算法比较和优化的基准工具之一。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，语音活动检测需准确区分语音与非语音片段，尤其在处理自然对话中的短暂停顿（如呼吸间隙）时，传统VAD模型易产生误判。数据集通过引入动态阈值和置信度标记（约7%低置信度帧）来缓解此问题，但如何平衡检测灵敏度与抗干扰能力仍是核心难题。在构建层面，数据标注依赖于背景噪声估计和平滑处理算法，其精度直接影响标注质量；同时，保持与原始LibriSpeech数据的一致性，并确保派生数据的合规性，亦需严谨的技术与法律考量。

常用场景

经典使用场景

在语音处理领域，librispeech_asr_test_vad数据集被广泛用于评估语音活动检测（VAD）模型的性能。其经典使用场景包括对模型在纯净语音环境下的检测能力进行基准测试，以及通过引入外部噪声样本来验证模型的鲁棒性。该数据集通过动态阈值方法和背景噪声估计生成的二值化语音特征，为研究者提供了一个标准化的测试平台。

解决学术问题

该数据集有效解决了语音活动检测领域中的关键学术问题，包括如何准确区分语音与非语音片段，以及如何处理自然语音中的短暂停顿。通过引入置信度特征，数据集进一步解决了模型在响应速度与准确性之间的权衡问题，为优化VAD算法提供了量化依据。其低背景噪声特性使得研究者能够专注于模型核心性能的评估。

实际应用

在实际应用中，该数据集被广泛用于智能语音助手、电话会议系统和实时字幕生成等场景的VAD模块开发。其提供的置信度特征特别适合需要高精度语音检测的工业级应用，如医疗听写系统和法律记录场景。通过该数据集的测试，开发者能够优化模型参数，显著降低误触发率。

数据集最近研究