DKYoon/SlimPajama-6B
收藏Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DKYoon/SlimPajama-6B
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
size_categories:
- 1M<n<10M
task_categories:
- text-generation
pretty_name: SlimPajama-6B
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
dataset_info:
features:
- name: text
dtype: string
- name: meta
struct:
- name: redpajama_set_name
dtype: string
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 23918118724
num_examples: 5489000
- name: validation
num_bytes: 39109042
num_examples: 9347
- name: test
num_bytes: 40114950
num_examples: 9346
download_size: 14048972121
dataset_size: 23997342716
---
Sampled version of [cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B).
[Since the original data was shuffled before chunking](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4), I only downloaded train/chunk1 (of 10 total) and further sampled 10%. This should result in roughly 6B tokens, hence SlimPajama-6B.
The dataset is 24GBs in storage size when decompressed (original dataset is over 2TBs) and has 5489000 rows.
The validation set and test set were sampled as well.
---
#### Data source proportions for SlimPajama-627B and SlimPajama-6B
For sanity purpose, I caluclated the byte proportion of the sampled version.
| Data source | SlimPajama-627B | SlimPajama-6B |
| ------------- | ---------- | --------- |
| Commoncrawl | 52.2% | 54.1% |
| C4 | 26.7% | 28.7% |
| GitHub | 5.2% | 4.2% |
| Books | 4.2% | 3.7% |
| ArXiv | 4.6% | 3.4% |
| Wikpedia | 3.8% | 3.1% |
| StackExchange | 3.3% | 2.8% |
---
Please refer to the original dataset for other info.
```
@misc{cerebras2023slimpajama,
author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan},
title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}},
month = June,
year = 2023,
howpublished = {\url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}},
url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B},
}
```
语言:
- 英语
规模类别:
- 100万 < 样本数量 < 1000万
任务类别:
- 文本生成
友好名称:SlimPajama-6B
配置项:
- 配置名称:default
数据文件:
- 数据集拆分:训练集(train),路径:data/train-*
- 数据集拆分:验证集(validation),路径:data/validation-*
- 数据集拆分:测试集(test),路径:data/test-*
数据集信息:
数据特征字段:
- 字段名:text,数据类型:字符串(string)
- 字段名:meta,为结构体类型,包含子字段:
- 子字段名:redpajama_set_name,数据类型:字符串(string)
- 字段名:__index_level_0__,数据类型:64位整数(int64)
数据集拆分详情:
- 拆分名称:训练集,字节占用量:23918118724,样本数量:5489000
- 拆分名称:验证集,字节占用量:39109042,样本数量:9347
- 拆分名称:测试集,字节占用量:40114950,样本数量:9346
下载总大小:14048972121 字节
数据集总存储大小:23997342716 字节
本数据集为[cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B)的采样版本。
由于原始数据在分块前已完成洗牌(详见[该讨论链接](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4)),本次仅下载了全部10个分块中的第1个训练分块,并进一步对其进行10%的采样,最终得到约60亿Token(Token),故命名为SlimPajama-6B。
本数据集解压后存储占用为24GB,原始数据集解压后则超过2TB,共包含5489000条样本。
验证集与测试集同样经过采样处理。
---
#### SlimPajama-627B与SlimPajama-6B的数据来源占比
为确保数据合理性,本次计算了采样后版本的字节占比。
| 数据来源 | SlimPajama-627B | SlimPajama-6B |
|:---------------------- |:--------------- |:------------- |
| 通用爬虫数据集(CommonCrawl) | 52.2% | 54.1% |
| 公开语料库C4(C4) | 26.7% | 28.7% |
| GitHub代码库 | 5.2% | 4.2% |
| 图书语料 | 4.2% | 3.7% |
| 学术论文ArXiv | 4.6% | 3.4% |
| 维基百科(注:原文拼写为Wikpedia,实为Wikipedia) | 3.8% | 3.1% |
| 问答社区StackExchange | 3.3% | 2.8% |
---
其余信息请参考原始数据集。
@misc{cerebras2023slimpajama,
author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan},
title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}},
month = June,
year = 2023,
howpublished = {url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}},
url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B},
}
提供机构:
DKYoon
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 数据集大小: 1M<n<10M
- 任务类别: 文本生成
- 数据集名称: SlimPajama-6B
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 数据文件:
数据集信息
-
特征:
- text: 字符串类型
- meta: 结构体类型,包含
redpajama_set_name(字符串类型) - index_level_0: 整数类型(int64)
-
数据分割:
- 训练集:
- 字节数: 23918118724
- 样本数: 5489000
- 验证集:
- 字节数: 39109042
- 样本数: 9347
- 测试集:
- 字节数: 40114950
- 样本数: 9346
- 训练集:
-
下载大小: 14048972121 字节
-
数据集大小: 23997342716 字节
数据源比例
-
SlimPajama-627B 和 SlimPajama-6B 的数据源比例:
数据源 SlimPajama-627B SlimPajama-6B Commoncrawl 52.2% 54.1% C4 26.7% 28.7% GitHub 5.2% 4.2% Books 4.2% 3.7% ArXiv 4.6% 3.4% Wikipedia 3.8% 3.1% StackExchange 3.3% 2.8%
搜集汇总
数据集介绍

背景与挑战
背景概述
SlimPajama-6B是一个经过清洗和去重的英文文本数据集,包含约60亿个token,由Commoncrawl、C4等多个来源组成,主要用于文本生成任务。该数据集是更大规模SlimPajama-627B的子集,经过采样处理以便于使用。
以上内容由遇见数据集搜集并总结生成



