five

distil-whisper/tedlium-long-form

收藏
Hugging Face2023-05-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/distil-whisper/tedlium-long-form
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为tedlium-long-form,包含音频、文本和说话者ID三个主要特征。数据集分为验证集和测试集,验证集包含8个样本,测试集包含11个样本。数据集的创建过程涉及从LIUM/tedlium数据集中加载数据,并根据特定的说话者ID合并音频和文本数据。合并后的数据集保存为新的音频文件,并生成相应的文本和说话者ID列。

该数据集名为tedlium-long-form,包含音频、文本和说话者ID三个主要特征。数据集分为验证集和测试集,验证集包含8个样本,测试集包含11个样本。数据集的创建过程涉及从LIUM/tedlium数据集中加载数据,并根据特定的说话者ID合并音频和文本数据。合并后的数据集保存为新的音频文件,并生成相应的文本和说话者ID列。
提供机构:
distil-whisper
原始信息汇总

数据集概述

数据集名称

  • 名称: tedlium-long-form

数据集特征

  • 音频 (audio): 数据类型为音频。
  • 文本 (text): 数据类型为字符串。
  • 说话人ID (speaker_id): 数据类型为字符串。

数据集分割

  • 验证集 (validation):
    • 示例数量: 8
    • 数据大小: 180166870字节
  • 测试集 (test):
    • 示例数量: 11
    • 数据大小: 285107770字节

数据集大小

  • 下载大小: 284926490字节
  • 总数据集大小: 465274640.0字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作