DKYoon/SlimPajama-6B

Name: DKYoon/SlimPajama-6B
Creator: DKYoon
Published: 2023-08-21 16:54:47
License: 暂无描述

Hugging Face2023-08-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DKYoon/SlimPajama-6B

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en size_categories: - 1M<n<10M task_categories: - text-generation pretty_name: SlimPajama-6B configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: text dtype: string - name: meta struct: - name: redpajama_set_name dtype: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 23918118724 num_examples: 5489000 - name: validation num_bytes: 39109042 num_examples: 9347 - name: test num_bytes: 40114950 num_examples: 9346 download_size: 14048972121 dataset_size: 23997342716 --- Sampled version of [cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B). [Since the original data was shuffled before chunking](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4), I only downloaded train/chunk1 (of 10 total) and further sampled 10%. This should result in roughly 6B tokens, hence SlimPajama-6B. The dataset is 24GBs in storage size when decompressed (original dataset is over 2TBs) and has 5489000 rows. The validation set and test set were sampled as well. --- #### Data source proportions for SlimPajama-627B and SlimPajama-6B For sanity purpose, I caluclated the byte proportion of the sampled version. | Data source | SlimPajama-627B | SlimPajama-6B | | ------------- | ---------- | --------- | | Commoncrawl | 52.2% | 54.1% | | C4 | 26.7% | 28.7% | | GitHub | 5.2% | 4.2% | | Books | 4.2% | 3.7% | | ArXiv | 4.6% | 3.4% | | Wikpedia | 3.8% | 3.1% | | StackExchange | 3.3% | 2.8% | --- Please refer to the original dataset for other info. ``` @misc{cerebras2023slimpajama, author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan}, title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}}, month = June, year = 2023, howpublished = {\url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}}, url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B}, } ```

语言： - 英语规模类别： - 100万 < 样本数量 < 1000万任务类别： - 文本生成友好名称：SlimPajama-6B 配置项： - 配置名称：default 数据文件： - 数据集拆分：训练集（train），路径：data/train-* - 数据集拆分：验证集（validation），路径：data/validation-* - 数据集拆分：测试集（test），路径：data/test-* 数据集信息：数据特征字段： - 字段名：text，数据类型：字符串（string） - 字段名：meta，为结构体类型，包含子字段： - 子字段名：redpajama_set_name，数据类型：字符串（string） - 字段名：__index_level_0__，数据类型：64位整数（int64）数据集拆分详情： - 拆分名称：训练集，字节占用量：23918118724，样本数量：5489000 - 拆分名称：验证集，字节占用量：39109042，样本数量：9347 - 拆分名称：测试集，字节占用量：40114950，样本数量：9346 下载总大小：14048972121 字节数据集总存储大小：23997342716 字节本数据集为[cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B)的采样版本。由于原始数据在分块前已完成洗牌（详见[该讨论链接](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4)），本次仅下载了全部10个分块中的第1个训练分块，并进一步对其进行10%的采样，最终得到约60亿Token（Token），故命名为SlimPajama-6B。本数据集解压后存储占用为24GB，原始数据集解压后则超过2TB，共包含5489000条样本。验证集与测试集同样经过采样处理。 --- #### SlimPajama-627B与SlimPajama-6B的数据来源占比为确保数据合理性，本次计算了采样后版本的字节占比。 | 数据来源 | SlimPajama-627B | SlimPajama-6B | |:---------------------- |:--------------- |:------------- | | 通用爬虫数据集（CommonCrawl） | 52.2% | 54.1% | | 公开语料库C4（C4） | 26.7% | 28.7% | | GitHub代码库 | 5.2% | 4.2% | | 图书语料 | 4.2% | 3.7% | | 学术论文ArXiv | 4.6% | 3.4% | | 维基百科（注：原文拼写为Wikpedia，实为Wikipedia） | 3.8% | 3.1% | | 问答社区StackExchange | 3.3% | 2.8% | --- 其余信息请参考原始数据集。 @misc{cerebras2023slimpajama, author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan}, title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}}, month = June, year = 2023, howpublished = {url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}}, url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B}, }

提供机构：

DKYoon

原始信息汇总

数据集概述

基本信息

语言: 英语
数据集大小: 1M<n<10M
任务类别: 文本生成
数据集名称: SlimPajama-6B

配置

配置名称: default
- 数据文件:
  - 训练集: data/train-*
  - 验证集: data/validation-*
  - 测试集: data/test-*

数据集信息

特征:
- text: 字符串类型
- meta: 结构体类型，包含 redpajama_set_name（字符串类型）
- index_level_0: 整数类型（int64）
数据分割:
- 训练集:
  - 字节数: 23918118724
  - 样本数: 5489000
- 验证集:
  - 字节数: 39109042
  - 样本数: 9347
- 测试集:
  - 字节数: 40114950
  - 样本数: 9346
下载大小: 14048972121 字节
数据集大小: 23997342716 字节

数据源比例

SlimPajama-627B 和 SlimPajama-6B 的数据源比例:

数据源 SlimPajama-627B SlimPajama-6B

Commoncrawl 52.2% 54.1%

C4 26.7% 28.7%

GitHub 5.2% 4.2%

Books 4.2% 3.7%

ArXiv 4.6% 3.4%

Wikipedia 3.8% 3.1%

StackExchange 3.3% 2.8%

搜集汇总

数据集介绍

背景与挑战

背景概述

SlimPajama-6B是一个经过清洗和去重的英文文本数据集，包含约60亿个token，由Commoncrawl、C4等多个来源组成，主要用于文本生成任务。该数据集是更大规模SlimPajama-627B的子集，经过采样处理以便于使用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

数据源	SlimPajama-627B	SlimPajama-6B
Commoncrawl	52.2%	54.1%
C4	26.7%	28.7%
GitHub	5.2%	4.2%
Books	4.2%	3.7%
ArXiv	4.6%	3.4%
Wikipedia	3.8%	3.1%
StackExchange	3.3%	2.8%