five

distil-whisper/gigaspeech-l-timestamped

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/gigaspeech-l-timestamped
下载链接
链接失效反馈
官方服务:
资源简介:
Distil Whisper: GigaSpeech With Timestamps是GigaSpeech数据集的一个变体,增加了Whisper模型的伪标签转录,并提供了时间戳预测。该数据集主要用于自动语音识别任务,语言为英语。数据集的使用受到严格限制,仅限于非商业研究和教育用途。用户需要同意特定的访问条款,包括不侵犯版权、接受数据库的免责声明,并承担使用数据库的全部责任。
提供机构:
distil-whisper
原始信息汇总

Distil Whisper: GigaSpeech With Timestamps

这是一个 GigaSpeech 数据集的变体,增加了伪标签的 Whisper 转录本以及原始数据集元素。伪标签转录本是通过使用 Whisper large-v2 模型对输入音频数据进行贪婪采样和时间戳预测生成的。有关原始数据集的制作信息,请参考原始 数据集卡片

独立使用

首先,安装最新版本的 🤗 Datasets 包:

bash pip install --upgrade pip pip install --upgrade datasets[audio]

可以使用 load_dataset 函数下载和预处理数据集到磁盘:

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/gigaspeech-l", "l")

获取验证集的第一个样本

sample = dataset["validation"][0]

也可以直接从 Hub 使用 Datasets 的 流模式 流式加载数据集。流模式下,数据集的单个样本会逐个加载,而不是将整个数据集下载到磁盘:

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/gigaspeech-l", "l", streaming=True)

获取验证集的第一个样本

sample = next(iter(dataset["validation"]))

Distil Whisper 使用

要使用此数据集重现 Distil Whisper 训练运行,请参考 Distil Whisper 仓库 中的说明。

许可证

此数据集受自定义条款许可。要查看此数据集的自定义许可证,请参考原始 数据集卡片

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作