distil-whisper/gigaspeech-l-timestamped
收藏Distil Whisper: GigaSpeech With Timestamps
这是一个 GigaSpeech 数据集的变体,增加了伪标签的 Whisper 转录本以及原始数据集元素。伪标签转录本是通过使用 Whisper large-v2 模型对输入音频数据进行贪婪采样和时间戳预测生成的。有关原始数据集的制作信息,请参考原始 数据集卡片。
独立使用
首先,安装最新版本的 🤗 Datasets 包:
bash pip install --upgrade pip pip install --upgrade datasets[audio]
可以使用 load_dataset 函数下载和预处理数据集到磁盘:
python from datasets import load_dataset
dataset = load_dataset("distil-whisper/gigaspeech-l", "l")
获取验证集的第一个样本
sample = dataset["validation"][0]
也可以直接从 Hub 使用 Datasets 的 流模式 流式加载数据集。流模式下,数据集的单个样本会逐个加载,而不是将整个数据集下载到磁盘:
python from datasets import load_dataset
dataset = load_dataset("distil-whisper/gigaspeech-l", "l", streaming=True)
获取验证集的第一个样本
sample = next(iter(dataset["validation"]))
Distil Whisper 使用
要使用此数据集重现 Distil Whisper 训练运行,请参考 Distil Whisper 仓库 中的说明。
许可证
此数据集受自定义条款许可。要查看此数据集的自定义许可证,请参考原始 数据集卡片。



