distil-whisper/peoples_speech-clean
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/peoples_speech-clean
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为Peoples Speech Clean数据集的变体,增加了通过Whisper模型生成的伪标签转录。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用包括安装和加载数据集的步骤,以及如何使用该数据集进行Distil Whisper训练的指导。数据集遵循cc-by-4.0许可证。
这是一个名为Peoples Speech Clean数据集的变体,增加了通过Whisper模型生成的伪标签转录。这些伪标签转录是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集的使用包括安装和加载数据集的步骤,以及如何使用该数据集进行Distil Whisper训练的指导。数据集遵循cc-by-4.0许可证。
提供机构:
distil-whisper
原始信息汇总
数据集概述
数据集名称
Distil Whisper: Peoples Speech Clean
数据集描述
这是一个Peoples Speech Clean数据集的变体,增加了伪标签的Whisper转录文本。伪标签转录文本是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。
语言
- 英语
任务类别
- 自动语音识别
许可证
cc-by-4.0
使用方法
数据集可以通过load_dataset函数加载,支持本地预处理和流式加载。
本地加载示例
python from datasets import load_dataset
dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean") sample = dataset["validation"][0]
流式加载示例
python from datasets import load_dataset
dataset = load_dataset("distil-whisper/peoples_speech-clean", "clean", streaming=True) sample = next(iter(dataset["validation"]))



