sippycoder/RedPajama-Data-1T-no-cc-c4|文本生成数据集|多源数据集数据集
收藏数据集概述
基本信息
- 任务类别:文本生成
- 语言:英语
- 数据集名称:Red Pajama 1T (no CC & C4)
数据集组成
- 文件数量:2084个jsonl文件
- 数据结构: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}, "red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange" }
数据集来源
- Commoncrawl:下载自Commoncrawl,经过去重和质量过滤。
- C4:下载自Huggingface,格式转换。
- GitHub:下载自Google BigQuery,去重和质量过滤,仅保留特定许可证项目。
- Wikipedia:下载自Huggingface,基于2023-03-20的Wikipedia dump,预处理去除了格式化内容。
- Gutenberg and Books3:下载自Huggingface,使用simhash去重。
- ArXiv:下载自Amazon S3,仅保留LaTeX源文件,去除预处理内容。
- Stackexchange:下载自Internet Archive,仅保留28个最大站点内容,去除HTML标签,组织成问答对。
数据集统计
- 总令牌数:1570亿
- 各部分令牌数:
- GitHub: 590亿
- Books: 260亿
- ArXiv: 280亿
- Wikipedia: 240亿
- StackExchange: 200亿
下载与引用
-
下载方式:可通过HuggingFace或直接下载。
-
引用信息:
@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }
许可证
- 数据集使用需遵循各子集的许可证规定。
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
Alexa Domains
该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高
OpenDataLab 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
UCI Wine
UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。
archive.ics.uci.edu 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录