five

jamescalam/youtube-transcriptions

收藏
Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jamescalam/youtube-transcriptions
下载链接
链接失效反馈
官方服务:
资源简介:
YouTube转录数据集包含技术教程的转录文本,这些教程目前来自James Briggs、Daniel Bourke和AI Coffee Break的YouTube频道,使用OpenAI的Whisper(大模型)进行转录。每个数据项代表一个大约句子长度的文本块,并附有视频URL和时间戳。需要注意的是,数据集中的每个项目仅包含一小段文本,大多数使用场景可能需要合并多个行以创建更大的文本块。
提供机构:
jamescalam
原始信息汇总

数据集概述

基本信息

  • 名称: Youtube Transcriptions
  • 语言: 英语 (en)
  • 多语言性: 单语种
  • 许可证: AFL-3.0
  • 大小: 10K<n<100K
  • 来源: 原始数据

创建者信息

  • 标注创建者: 无标注
  • 语言创建者: 发现

标签

  • youtube
  • technical
  • speech to text
  • speech
  • video
  • video search
  • audio
  • audio search

任务类别

  • 对话
  • 问答
  • 文本检索
  • 视觉问答

任务ID

  • open-domain-qa
  • extractive-qa
  • document-retrieval
  • visual-question-answering

数据集内容

  • 包含技术教程的转录文本,来自James Briggs、Daniel Bourke和AI Coffee Break的YouTube视频。
  • 使用OpenAI的Whisper进行转录,每行代表约一个句子长度的文本,附带视频URL和时间戳。

使用说明

  • 数据集中的每个项目仅包含短文本片段,通常需要合并多个行以创建更长的文本片段。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作