distil-whisper/common_voice_13_0
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/common_voice_13_0
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
task_categories:
- automatic-speech-recognition
language:
- en
-pretty_name: Common Voice 13
---
# Distil Whisper: Common Voice 13
This is a variant of the [Common Voice 13](https://huggingface.co/datasets/mozilla_foundation/common_voice_13) dataset, augmented to return the pseudo-labelled Whisper
Transcriptions alongside the original dataset elements. The pseudo-labelled transcriptions were generated by
labelling the input audio data with the Whisper [large-v2](https://huggingface.co/openai/whisper-large-v2)
model with *greedy* sampling. For information on how the original dataset was curated, refer to the original
[dataset card](https://huggingface.co/datasets/mozilla_foundation/common_voice_13).
## Standalone Usage
First, install the latest version of the 🤗 Datasets package:
```bash
pip install --upgrade pip
pip install --upgrade datasets[audio]
```
The dataset can be downloaded and pre-processed on disk using the [`load_dataset`](https://huggingface.co/docs/datasets/v2.14.5/en/package_reference/loading_methods#datasets.load_dataset)
function:
```python
from datasets import load_dataset
dataset = load_dataset("distil-whisper/common_voice_13_0", "en")
# take the first sample of the validation set
sample = dataset["validation"][0]
```
It can also be streamed directly from the Hub using Datasets' [streaming mode](https://huggingface.co/blog/audio-datasets#streaming-mode-the-silver-bullet).
Loading a dataset in streaming mode loads individual samples of the dataset at a time, rather than downloading the entire
dataset to disk:
```python
from datasets import load_dataset
dataset = load_dataset("distil-whisper/common_voice_13_0", "en", streaming=True)
# take the first sample of the validation set
sample = next(iter(dataset["validation"]))
```
## Distil Whisper Usage
To use this dataset to reproduce a Distil Whisper training run, refer to the instructions on the
[Distil Whisper repository](https://github.com/huggingface/distil-whisper#training).
## License
This dataset is licensed under cc0-1.0.
提供机构:
distil-whisper
原始信息汇总
数据集概述
数据集名称
Distil Whisper: Common Voice 13
数据集描述
这是一个Common Voice 13数据集的变体,增加了伪标签的Whisper转录文本。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。
语言
- 英语 (en)
任务类别
- 自动语音识别 (automatic-speech-recognition)
许可证
cc0-1.0
使用方法
数据集可以通过🤗 Datasets包的load_dataset函数下载和预处理,也可以使用流式模式直接从Hub加载。具体代码示例如下:
python from datasets import load_dataset
下载并预处理数据集
dataset = load_dataset("distil-whisper/common_voice_13_0", "en") sample = dataset["validation"][0]
使用流式模式加载数据集
dataset = load_dataset("distil-whisper/common_voice_13_0", "en", streaming=True) sample = next(iter(dataset["validation"]))
相关链接
搜集汇总
数据集介绍

构建方式
在自动语音识别领域,数据质量对模型性能具有决定性影响。Distil-Whisper/Common_Voice_13_0数据集基于Mozilla Foundation的Common Voice 13构建,通过Whisper large-v2模型采用贪婪采样策略对原始音频数据进行伪标注,生成与原始数据元素并行的转录文本。这一构建方法不仅保留了原始众包数据的多样性,还引入了大规模预训练模型提供的标注一致性,为语音识别模型的训练与评估提供了双重参考标准。
特点
该数据集的核心特点在于其双重标注体系,既包含原始Common Voice 13的众包转录,又整合了Whisper模型生成的伪标签。这种结构使得数据集同时具备人类标注的语义准确性与机器标注的规模优势,特别适用于知识蒸馏、模型微调等研究场景。数据集专注于英语语音识别任务,所有音频均配有精确的时间对齐文本,为语音识别模型的训练提供了高质量的监督信号。
使用方法
研究人员可通过Hugging Face Datasets库直接加载该数据集,支持完整下载与流式读取两种模式。使用load_dataset函数指定数据集名称与语言代码即可获取包含训练、验证、测试分割的结构化数据。对于需要大规模训练的场景,推荐启用流式读取功能以优化内存使用。该数据集可直接用于语音识别模型的训练与评估,也可作为Distil-Whisper等知识蒸馏项目的标准数据源,具体训练流程可参考官方实现仓库。
背景与挑战
背景概述
在自动语音识别(ASR)领域,高质量、大规模标注语音数据集的构建是推动模型性能突破的关键基础。Common Voice项目由Mozilla基金会于2017年发起,旨在通过全球社区众包的方式,收集多语言、带文本转录的语音数据,以促进开放、可访问的语音技术发展。其第13版数据集延续了这一使命,而distil-whisper/common_voice_13_0作为其变体,由Hugging Face团队于2023年创建,核心研究问题在于利用Whisper large-v2模型生成伪标签转录,以增强数据集的监督信号,从而支持更高效的语音识别模型蒸馏与训练,对推动轻量级、高性能ASR模型的演进具有显著影响力。
当前挑战
该数据集致力于解决自动语音识别领域中的模型效率与泛化能力挑战,特别是在资源受限环境下实现高精度转录。具体挑战包括:语音数据的多样性与噪声鲁棒性,要求模型能处理不同口音、背景音和录音条件;伪标签生成的质量控制,Whisper模型虽强大,但其贪婪解码策略可能导致转录错误累积,影响蒸馏效果;数据规模与计算成本,大规模语音处理需高效存储与流式加载机制。构建过程中,挑战集中于原始众包数据的质量筛选与对齐,以及伪标签生成流程的优化,确保转录准确性与数据集一致性,同时维护开源许可合规性。
常用场景
经典使用场景
在自动语音识别领域,distil-whisper/common_voice_13_0数据集常被用于模型蒸馏与知识迁移的研究。该数据集整合了Common Voice 13的原始音频样本,并辅以Whisper large-v2模型生成的伪标签转录,为研究者提供了高质量的语音-文本对齐数据。经典使用场景包括训练轻量级语音识别模型,通过利用大规模预训练模型的输出作为监督信号,有效提升小模型在英语语音识别任务上的性能,同时降低计算资源需求。
实际应用
在实际应用中,distil-whisper/common_voice_13_0数据集支持开发适用于移动设备与嵌入式系统的语音识别引擎。基于该数据集训练的模型可集成于智能助手、实时字幕生成工具及无障碍通信设备中,提升英语语音交互的准确性与响应速度。其流式加载特性进一步降低了数据存储门槛,使得资源受限环境下的模型迭代与部署成为可能。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在模型蒸馏与高效语音识别架构的创新上。例如,Distil Whisper项目利用该数据集训练了参数更少、推理速度更快的语音识别模型,保持了与原始Whisper模型相近的识别精度。后续研究进一步探索了基于伪标签的跨语言迁移、噪声鲁棒性增强等技术,推动了轻量级语音识别模型在多样化场景中的实用化进程。
以上内容由遇见数据集搜集并总结生成



