distil-whisper/gigaspeech-l-timestamped

Name: distil-whisper/gigaspeech-l-timestamped
Creator: distil-whisper
Published: 2023-09-25 10:28:51
License: 暂无描述

Hugging Face2023-09-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/distil-whisper/gigaspeech-l-timestamped

下载链接

链接失效反馈

官方服务：

资源简介：

Distil Whisper: GigaSpeech With Timestamps是GigaSpeech数据集的一个变体，增加了Whisper模型的伪标签转录，并提供了时间戳预测。该数据集主要用于自动语音识别任务，语言为英语。数据集的使用受到严格限制，仅限于非商业研究和教育用途。用户需要同意特定的访问条款，包括不侵犯版权、接受数据库的免责声明，并承担使用数据库的全部责任。

提供机构：

distil-whisper

原始信息汇总

Distil Whisper: GigaSpeech With Timestamps

这是一个 GigaSpeech 数据集的变体，增加了伪标签的 Whisper 转录本以及原始数据集元素。伪标签转录本是通过使用 Whisper large-v2 模型对输入音频数据进行贪婪采样和时间戳预测生成的。有关原始数据集的制作信息，请参考原始数据集卡片。

独立使用

首先，安装最新版本的 🤗 Datasets 包：

bash pip install --upgrade pip pip install --upgrade datasets[audio]

可以使用 load_dataset 函数下载和预处理数据集到磁盘：

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/gigaspeech-l", "l")

获取验证集的第一个样本

sample = dataset["validation"][0]

也可以直接从 Hub 使用 Datasets 的流模式流式加载数据集。流模式下，数据集的单个样本会逐个加载，而不是将整个数据集下载到磁盘：

python from datasets import load_dataset

dataset = load_dataset("distil-whisper/gigaspeech-l", "l", streaming=True)

获取验证集的第一个样本

sample = next(iter(dataset["validation"]))

Distil Whisper 使用

要使用此数据集重现 Distil Whisper 训练运行，请参考 Distil Whisper 仓库中的说明。

许可证

此数据集受自定义条款许可。要查看此数据集的自定义许可证，请参考原始数据集卡片。

5,000+

优质数据集

54 个

任务类型

进入经典数据集