distil-whisper/rev16
收藏Hugging Face2023-10-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/rev16
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:full和whisper_subset。full配置包含30个播客文件,而whisper_subset配置是从中筛选出的16个播客文件,用于Whisper论文的长格式评估。剩余的14个文件由于音频和标签不匹配而被过滤掉。每个配置都包含音频、文件编号、节目标题、集标题、iTunes ID和转录文本等特征。数据集分为测试集,并提供了每个配置的下载大小和数据集大小。
The dataset includes two configurations: full and whisper_subset. The full configuration contains 30 podcast files, while the whisper_subset configuration contains 16 podcast files used in the Whisper paper for long-form evaluation. Each configuration includes features such as audio, file number, show title, episode title, iTunes ID, and transcription. The dataset is divided into a test set, with 30 samples in the full configuration and 16 samples in the whisper_subset configuration.
提供机构:
distil-whisper
原始信息汇总
数据集概述
数据集配置
- full: 包含30个播客文件的完整数据集。
- whisper_subset: 包含16个播客文件的子集,用于Whisper论文中的长格式评估。其余14个文件因音频与标签不匹配而被从测试集中过滤。
数据集特征
- audio: 音频数据类型。
- file_number: 文件编号,字符串类型。
- show_title: 节目标题,字符串类型。
- episode_title: 剧集标题,字符串类型。
- itunes_id: iTunes ID,字符串类型。
- transcription: 转录文本,字符串类型。
数据分割
- test:
- full: 包含30个样本,数据大小为1509910660.0字节,下载大小为1445493754字节。
- whisper_subset: 包含16个样本,数据大小为921693242.0字节,下载大小为881542397字节。
数据文件路径
- full: 测试集文件路径为
full/test-*。 - whisper_subset: 测试集文件路径为
whisper_subset/test-*。



