togethercomputer/RedPajama-Data-1T

hugging_face2024-06-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/togethercomputer/RedPajama-Data-1T

下载链接

链接失效反馈

资源简介：

RedPajama是一个用于文本生成任务的大型数据集，包含2084个jsonl文件，总token数达到1.2万亿。数据集主要使用英语，但也包含多语言的Wikipedia部分。数据集结构包括文本内容、元数据（如URL、时间戳、来源和语言）以及标识数据子集的字段。创建过程涉及从多个源（如Commoncrawl、C4、GitHub等）下载和预处理数据，以尽可能接近LLaMa论文的描述。

提供机构：

togethercomputer

原始信息汇总

数据集概述

名称: RedPajama-Data-1T

任务类别: 文本生成

语言: 主要为英语，Wikipedia部分包含多语言

数据集结构: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...}, "red_pajama_subset": "common_crawl" | "c4" | "github" | "books" | "arxiv" | "wikipedia" | "stackexchange" }

数据集组成:

包含2084个jsonl文件
可通过HuggingFace或直接下载获取

数据集来源及处理:

Commoncrawl: 下载自Commoncrawl，经过去重和质量过滤
C4: 下载自Huggingface，格式转换
GitHub: 下载自Google BigQuery，去重和质量过滤，仅保留特定开源许可项目
Wikipedia: 下载自Huggingface，已预处理
ArXiv: 下载自Amazon S3，仅保留LaTeX源文件并去除不必要部分
StackExchange: 下载自Internet Archive，仅保留28个最大站点内容，去除HTML标签，组织为问答对

数据集大小:

总计1.2万亿token
各部分token数量如下:
- Commoncrawl: 878亿
- C4: 175亿
- GitHub: 59亿
- Books: 26亿
- ArXiv: 28亿
- Wikipedia: 24亿
- StackExchange: 20亿

许可证:

请参考各数据子集的许可证

引用信息:

@software{together2023redpajama, author = {Together Computer}, title = {RedPajama: An Open Source Recipe to Reproduce LLaMA training dataset}, month = April, year = 2023, url = {https://github.com/togethercomputer/RedPajama-Data} }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

The MaizeGDB

The MaizeGDB（Maize Genetics and Genomics Database）是一个专门为玉米（Zea mays）基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究，为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

长基线雷电密度24小时分布图

长基线雷电密度24小时分布图由长基线探测仪雷电探测数据加工制作而成，长基线探测仪雷电探测数据由分布在亚太地区的多个VLF电磁脉冲探测仪观测产生，本数据集数据产品制作时选取探测范围内24小时的长基线探测仪雷电探测数据计算雷电密度，并叠加探测范围内的地理信息进行制图，长基线雷电密度24小时分布图时间间隔为24小时，每日8时(北京时)分别生成一张，图片以JPEG方式存储，可用于每24小时闪电密度分布直观显示，供用户查看亚欧大陆、太平洋及印度洋大部分地区的雷电发生情况。

国家空间科学数据中心收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录