distil-whisper/ami-ihm
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/ami-ihm
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是AMI IHM数据集的一个变体,增加了Whisper模型的伪标注转录。这些伪标注是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集主要用于自动语音识别任务,语言为英语。
该数据集是AMI IHM数据集的一个变体,增加了Whisper模型的伪标注转录。这些伪标注是通过使用Whisper large-v2模型对输入音频数据进行贪婪采样生成的。数据集主要用于自动语音识别任务,语言为英语。
提供机构:
distil-whisper
原始信息汇总
Distil Whisper: AMI IHM 数据集概述
数据集描述
- 数据集名称: Distil Whisper: AMI IHM
- 数据集类型: 自动语音识别(Automatic Speech Recognition, ASR)
- 语言: 英语
- 数据集版本: 原始AMI IHM数据集的增强版,包含伪标签的Whisper转录文本
- 伪标签生成方式: 使用Whisper large-v2 模型进行贪婪采样
数据集使用
- 安装依赖: 需要安装🤗 Datasets包,使用命令
pip install --upgrade datasets[audio] - 数据集加载:
- 常规加载: 使用
load_dataset函数,例如dataset = load_dataset("distil-whisper/ami-ihm", "ihm") - 流式加载: 设置
streaming=True,例如dataset = load_dataset("distil-whisper/ami-ihm", "ihm", streaming=True)
- 常规加载: 使用
许可证
- 许可证: cc-by-4.0



