jamescalam/youtube-transcriptions
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jamescalam/youtube-transcriptions
下载链接
链接失效反馈官方服务:
资源简介:
YouTube转录数据集包含技术教程的转录文本,这些教程目前来自James Briggs、Daniel Bourke和AI Coffee Break的YouTube频道,使用OpenAI的Whisper(大模型)进行转录。每个数据项代表一个大约句子长度的文本块,并附有视频URL和时间戳。需要注意的是,数据集中的每个项目仅包含一小段文本,大多数使用场景可能需要合并多个行以创建更大的文本块。
提供机构:
jamescalam
原始信息汇总
数据集概述
基本信息
- 名称: Youtube Transcriptions
- 语言: 英语 (en)
- 多语言性: 单语种
- 许可证: AFL-3.0
- 大小: 10K<n<100K
- 来源: 原始数据
创建者信息
- 标注创建者: 无标注
- 语言创建者: 发现
标签
- youtube
- technical
- speech to text
- speech
- video
- video search
- audio
- audio search
任务类别
- 对话
- 问答
- 文本检索
- 视觉问答
任务ID
- open-domain-qa
- extractive-qa
- document-retrieval
- visual-question-answering
数据集内容
- 包含技术教程的转录文本,来自James Briggs、Daniel Bourke和AI Coffee Break的YouTube视频。
- 使用OpenAI的Whisper进行转录,每行代表约一个句子长度的文本,附带视频URL和时间戳。
使用说明
- 数据集中的每个项目仅包含短文本片段,通常需要合并多个行以创建更长的文本片段。



