shivendrra/consolidated-datasets
收藏Hugging Face2024-12-12 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/shivendrra/consolidated-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为YouTubeTranscriptData,包含了大约167K个YouTube视频的转录文本,这些视频涵盖了编码讲座、播客、访谈、新闻视频、评论和歌词等多种类型。数据集通过网页抓取生成,适用于训练Transformer模型/BPE分词器,以及学习和研究目的。数据集由Shivendra Singh策划,未提及具体许可证。数据集来源包括YouTube视频和Britannica.com的文章,数据收集和处理使用了YouTube V3 API和Youtube Transcript API。
该数据集名为YouTubeTranscriptData,包含了大约167K个YouTube视频的转录文本,这些视频涵盖了编码讲座、播客、访谈、新闻视频、评论和歌词等多种类型。数据集通过网页抓取生成,适用于训练Transformer模型/BPE分词器,以及学习和研究目的。数据集由Shivendra Singh策划,未提及具体许可证。数据集来源包括YouTube视频和Britannica.com的文章,数据收集和处理使用了YouTube V3 API和Youtube Transcript API。
提供机构:
shivendrra
原始信息汇总
数据集卡片 for YouTubeTranscriptData
数据集详情
数据集描述
该数据集包含约167K个YouTube视频的转录文本,包括编程讲座、播客、采访、新闻视频、评论和歌词。还包括通过网络爬虫生成的多个文件。
- 由以下人员策划: Shivendra Singh
- 许可证: [无]
数据集来源
用途
- 可用于训练Transformer模型/BPE分词器
- 也可用于学习和研究目的
- 适用于从头开始训练NLP和基础模型
直接用途
用于训练一个7600万参数的Transformer模型。
超出范围的用途
不适合用于微调任何基础模型或预训练模型。仅适用于从头开始训练NLP和基础模型。
数据集结构
待添加微调数据后更新此部分。
数据集创建
创建理由
我想要创建一个应用程序,帮助我为我的YouTube视频编写脚本。我尝试了一些gpt-3.5微调和langchain,以及YouTube/Google API,并有了一个自己从头开始训练模型的想法。
源数据
YouTube视频:
- 播客如Lex Fridman、Waveform、Joe Rogan、vergecast、比尔·盖茨等。
- 来自candaian lad、aevy tv、SNL、lemmino、mrwhosetheboss、johnny harris等的视频。
- 来自vox、wallstreetjournal、newyorktimes、the guardian等的新闻视频。
- 来自variety、wired、y-combinator、eo等的采访。
- 来自mit opencourseware、cs50、freecodecamp、crashcourse等的讲座。
- 来自kurzgesagt、real engineering、arvin ash、vsause、veritasium等的技术和科学视频。
Britannica.com:
- 关于Covid、核反应、南极洲、诺贝尔奖、伟大领袖、国家等的文章。
数据收集和处理
使用Youtube V3 API从特定YouTube频道获取视频ID并生成目标URL。然后使用Youtube Transcript API从视频中获取转录文本并写入.txt文件。 创建了一个包含约45个频道ID的json文件,并从约167K个视频中获取转录文本。
通过网络爬虫从britannica.com和GoogleCustomSearch API获取的一些网站中抓取数据。



