five

sippycoder/RedPajama-Data-1T-no-cc-c4|文本生成数据集|多源数据集数据集

收藏
hugging_face2023-06-18 更新2024-03-04 收录
文本生成
多源数据集
下载链接:
https://hf-mirror.com/datasets/sippycoder/RedPajama-Data-1T-no-cc-c4
下载链接
链接失效反馈
资源简介:
Red Pajama 1T数据集是一个开源的文本生成数据集,源自`togethercomputer/RedPajama-Data-1T`,并移除了CommonCrawl和C4部分。该数据集包含2084个jsonl文件,总共有1570亿个token,主要用于文本生成任务。数据集主要包含英文文本,但Wikipedia部分包含多种语言。数据集的创建过程遵循了LLaMa论文的方法,尽可能复现其数据集的构建过程。数据集的各个子集(如CommonCrawl、C4、GitHub、Wikipedia等)都有详细的预处理步骤和来源描述。
提供机构:
sippycoder
原始信息汇总

数据集概述

基本信息

  • 任务类别:文本生成
  • 语言:英语
  • 数据集名称:Red Pajama 1T (no CC & C4)

数据集组成

  • 文件数量:2084个jsonl文件
  • 数据结构: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}, "red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange" }

数据集来源

  • Commoncrawl:下载自Commoncrawl,经过去重和质量过滤。
  • C4:下载自Huggingface,格式转换。
  • GitHub:下载自Google BigQuery,去重和质量过滤,仅保留特定许可证项目。
  • Wikipedia:下载自Huggingface,基于2023-03-20的Wikipedia dump,预处理去除了格式化内容。
  • Gutenberg and Books3:下载自Huggingface,使用simhash去重。
  • ArXiv:下载自Amazon S3,仅保留LaTeX源文件,去除预处理内容。
  • Stackexchange:下载自Internet Archive,仅保留28个最大站点内容,去除HTML标签,组织成问答对。

数据集统计

  • 总令牌数:1570亿
  • 各部分令牌数
    • GitHub: 590亿
    • Books: 260亿
    • ArXiv: 280亿
    • Wikipedia: 240亿
    • StackExchange: 200亿

下载与引用

  • 下载方式:可通过HuggingFace或直接下载。

  • 引用信息

    @software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }

许可证

  • 数据集使用需遵循各子集的许可证规定。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

Alexa Domains

该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高

OpenDataLab 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

UCI Wine

UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。

archive.ics.uci.edu 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录