shivendrra/consolidated-datasets

Name: shivendrra/consolidated-datasets
Creator: shivendrra
Published: 2024-12-12 23:13:21
License: 暂无描述

Hugging Face2024-12-12 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/shivendrra/consolidated-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为YouTubeTranscriptData，包含了大约167K个YouTube视频的转录文本，这些视频涵盖了编码讲座、播客、访谈、新闻视频、评论和歌词等多种类型。数据集通过网页抓取生成，适用于训练Transformer模型/BPE分词器，以及学习和研究目的。数据集由Shivendra Singh策划，未提及具体许可证。数据集来源包括YouTube视频和Britannica.com的文章，数据收集和处理使用了YouTube V3 API和Youtube Transcript API。

提供机构：

shivendrra

原始信息汇总

数据集卡片 for YouTubeTranscriptData

数据集详情

数据集描述

该数据集包含约167K个YouTube视频的转录文本，包括编程讲座、播客、采访、新闻视频、评论和歌词。还包括通过网络爬虫生成的多个文件。

由以下人员策划： Shivendra Singh
许可证： [无]

数据集来源

仓库： SmallLanguageModel

用途

可用于训练Transformer模型/BPE分词器
也可用于学习和研究目的
适用于从头开始训练NLP和基础模型

直接用途

用于训练一个7600万参数的Transformer模型。

超出范围的用途

不适合用于微调任何基础模型或预训练模型。仅适用于从头开始训练NLP和基础模型。

数据集结构

待添加微调数据后更新此部分。

数据集创建

创建理由

我想要创建一个应用程序，帮助我为我的YouTube视频编写脚本。我尝试了一些gpt-3.5微调和langchain，以及YouTube/Google API，并有了一个自己从头开始训练模型的想法。

源数据

YouTube视频：

播客如Lex Fridman、Waveform、Joe Rogan、vergecast、比尔·盖茨等。
来自candaian lad、aevy tv、SNL、lemmino、mrwhosetheboss、johnny harris等的视频。
来自vox、wallstreetjournal、newyorktimes、the guardian等的新闻视频。
来自variety、wired、y-combinator、eo等的采访。
来自mit opencourseware、cs50、freecodecamp、crashcourse等的讲座。
来自kurzgesagt、real engineering、arvin ash、vsause、veritasium等的技术和科学视频。

Britannica.com：

关于Covid、核反应、南极洲、诺贝尔奖、伟大领袖、国家等的文章。

数据收集和处理

使用Youtube V3 API从特定YouTube频道获取视频ID并生成目标URL。然后使用Youtube Transcript API从视频中获取转录文本并写入.txt文件。创建了一个包含约45个频道ID的json文件，并从约167K个视频中获取转录文本。

通过网络爬虫从britannica.com和GoogleCustomSearch API获取的一些网站中抓取数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集