distil-whisper/tedlium-long-form
收藏Hugging Face2023-05-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/tedlium-long-form
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为tedlium-long-form,包含音频、文本和说话者ID三个主要特征。数据集分为验证集和测试集,验证集包含8个样本,测试集包含11个样本。数据集的创建过程涉及从LIUM/tedlium数据集中加载数据,并根据特定的说话者ID合并音频和文本数据。合并后的数据集保存为新的音频文件,并生成相应的文本和说话者ID列。
该数据集名为tedlium-long-form,包含音频、文本和说话者ID三个主要特征。数据集分为验证集和测试集,验证集包含8个样本,测试集包含11个样本。数据集的创建过程涉及从LIUM/tedlium数据集中加载数据,并根据特定的说话者ID合并音频和文本数据。合并后的数据集保存为新的音频文件,并生成相应的文本和说话者ID列。
提供机构:
distil-whisper
原始信息汇总
数据集概述
数据集名称
- 名称: tedlium-long-form
数据集特征
- 音频 (audio): 数据类型为音频。
- 文本 (text): 数据类型为字符串。
- 说话人ID (speaker_id): 数据类型为字符串。
数据集分割
- 验证集 (validation):
- 示例数量: 8
- 数据大小: 180166870字节
- 测试集 (test):
- 示例数量: 11
- 数据大小: 285107770字节
数据集大小
- 下载大小: 284926490字节
- 总数据集大小: 465274640.0字节



