distil-whisper/peoples_speech-clean

Name: distil-whisper/peoples_speech-clean
Creator: distil-whisper
Published: 2023-09-25 10:30:13
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/distil-whisper/peoples_speech-clean

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个名为Peoples Speech Clean数据集的变体，增加了通过Whisper模型生成的伪标签转录。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用包括安装和加载数据集的步骤，以及如何使用该数据集进行Distil Whisper训练的指导。数据集遵循cc-by-4.0许可证。

提供机构：

distil-whisper

原始信息汇总

数据集概述

数据集名称

Distil Whisper: Peoples Speech Clean

数据集描述

这是一个Peoples Speech Clean数据集的变体，增加了伪标签的Whisper转录文本。伪标签转录文本是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。

语言

英语

任务类别

自动语音识别

许可证

cc-by-4.0

使用方法

数据集可以通过load_dataset函数加载，支持本地预处理和流式加载。

本地加载示例

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean") sample = dataset["validation"][0]

流式加载示例

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean", streaming=True) sample = next(iter(dataset["validation"]))

5,000+

优质数据集

54 个

任务类型

进入经典数据集