five

distil-whisper/peoples_speech-clean

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/peoples_speech-clean
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为Peoples Speech Clean数据集的变体,增加了通过Whisper模型生成的伪标签转录。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用包括安装和加载数据集的步骤,以及如何使用该数据集进行Distil Whisper训练的指导。数据集遵循cc-by-4.0许可证。

这是一个名为Peoples Speech Clean数据集的变体,增加了通过Whisper模型生成的伪标签转录。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用包括安装和加载数据集的步骤,以及如何使用该数据集进行Distil Whisper训练的指导。数据集遵循cc-by-4.0许可证。
提供机构:
distil-whisper
原始信息汇总

数据集概述

数据集名称

Distil Whisper: Peoples Speech Clean

数据集描述

这是一个Peoples Speech Clean数据集的变体,增加了伪标签的Whisper转录文本。伪标签转录文本是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。

语言

  • 英语

任务类别

  • 自动语音识别

许可证

cc-by-4.0

使用方法

数据集可以通过load_dataset函数加载,支持本地预处理和流式加载。

本地加载示例

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean") sample = dataset["validation"][0]

流式加载示例

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean", streaming=True) sample = next(iter(dataset["validation"]))

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作