five

DKYoon/SlimPajama-6B

收藏
Hugging Face2023-08-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DKYoon/SlimPajama-6B
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en size_categories: - 1M<n<10M task_categories: - text-generation pretty_name: SlimPajama-6B configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* dataset_info: features: - name: text dtype: string - name: meta struct: - name: redpajama_set_name dtype: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 23918118724 num_examples: 5489000 - name: validation num_bytes: 39109042 num_examples: 9347 - name: test num_bytes: 40114950 num_examples: 9346 download_size: 14048972121 dataset_size: 23997342716 --- Sampled version of [cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B). [Since the original data was shuffled before chunking](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4), I only downloaded train/chunk1 (of 10 total) and further sampled 10%. This should result in roughly 6B tokens, hence SlimPajama-6B. The dataset is 24GBs in storage size when decompressed (original dataset is over 2TBs) and has 5489000 rows. The validation set and test set were sampled as well. --- #### Data source proportions for SlimPajama-627B and SlimPajama-6B For sanity purpose, I caluclated the byte proportion of the sampled version. | Data source | SlimPajama-627B | SlimPajama-6B | | ------------- | ---------- | --------- | | Commoncrawl | 52.2% | 54.1% | | C4 | 26.7% | 28.7% | | GitHub | 5.2% | 4.2% | | Books | 4.2% | 3.7% | | ArXiv | 4.6% | 3.4% | | Wikpedia | 3.8% | 3.1% | | StackExchange | 3.3% | 2.8% | --- Please refer to the original dataset for other info. ``` @misc{cerebras2023slimpajama, author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan}, title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}}, month = June, year = 2023, howpublished = {\url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}}, url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B}, } ```

语言: - 英语 规模类别: - 100万 < 样本数量 < 1000万 任务类别: - 文本生成 友好名称:SlimPajama-6B 配置项: - 配置名称:default 数据文件: - 数据集拆分:训练集(train),路径:data/train-* - 数据集拆分:验证集(validation),路径:data/validation-* - 数据集拆分:测试集(test),路径:data/test-* 数据集信息: 数据特征字段: - 字段名:text,数据类型:字符串(string) - 字段名:meta,为结构体类型,包含子字段: - 子字段名:redpajama_set_name,数据类型:字符串(string) - 字段名:__index_level_0__,数据类型:64位整数(int64) 数据集拆分详情: - 拆分名称:训练集,字节占用量:23918118724,样本数量:5489000 - 拆分名称:验证集,字节占用量:39109042,样本数量:9347 - 拆分名称:测试集,字节占用量:40114950,样本数量:9346 下载总大小:14048972121 字节 数据集总存储大小:23997342716 字节 本数据集为[cerebras/SlimPajama-627B](https://huggingface.co/datasets/cerebras/SlimPajama-627B)的采样版本。 由于原始数据在分块前已完成洗牌(详见[该讨论链接](https://huggingface.co/datasets/cerebras/SlimPajama-627B/discussions/4)),本次仅下载了全部10个分块中的第1个训练分块,并进一步对其进行10%的采样,最终得到约60亿Token(Token),故命名为SlimPajama-6B。 本数据集解压后存储占用为24GB,原始数据集解压后则超过2TB,共包含5489000条样本。 验证集与测试集同样经过采样处理。 --- #### SlimPajama-627B与SlimPajama-6B的数据来源占比 为确保数据合理性,本次计算了采样后版本的字节占比。 | 数据来源 | SlimPajama-627B | SlimPajama-6B | |:---------------------- |:--------------- |:------------- | | 通用爬虫数据集(CommonCrawl) | 52.2% | 54.1% | | 公开语料库C4(C4) | 26.7% | 28.7% | | GitHub代码库 | 5.2% | 4.2% | | 图书语料 | 4.2% | 3.7% | | 学术论文ArXiv | 4.6% | 3.4% | | 维基百科(注:原文拼写为Wikpedia,实为Wikipedia) | 3.8% | 3.1% | | 问答社区StackExchange | 3.3% | 2.8% | --- 其余信息请参考原始数据集。 @misc{cerebras2023slimpajama, author = {Soboleva, Daria and Al-Khateeb, Faisal and Myers, Robert and Steeves, Jacob R and Hestness, Joel and Dey, Nolan}, title = {{SlimPajama: A 627B token cleaned and deduplicated version of RedPajama}}, month = June, year = 2023, howpublished = {url{https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama}}, url = {https://huggingface.co/datasets/cerebras/SlimPajama-627B}, }
提供机构:
DKYoon
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 数据集大小: 1M<n<10M
  • 任务类别: 文本生成
  • 数据集名称: SlimPajama-6B

配置

  • 配置名称: default
    • 数据文件:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*

数据集信息

  • 特征:

    • text: 字符串类型
    • meta: 结构体类型,包含 redpajama_set_name(字符串类型)
    • index_level_0: 整数类型(int64)
  • 数据分割:

    • 训练集:
      • 字节数: 23918118724
      • 样本数: 5489000
    • 验证集:
      • 字节数: 39109042
      • 样本数: 9347
    • 测试集:
      • 字节数: 40114950
      • 样本数: 9346
  • 下载大小: 14048972121 字节

  • 数据集大小: 23997342716 字节

数据源比例

  • SlimPajama-627B 和 SlimPajama-6B 的数据源比例:

    数据源 SlimPajama-627B SlimPajama-6B
    Commoncrawl 52.2% 54.1%
    C4 26.7% 28.7%
    GitHub 5.2% 4.2%
    Books 4.2% 3.7%
    ArXiv 4.6% 3.4%
    Wikipedia 3.8% 3.1%
    StackExchange 3.3% 2.8%
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SlimPajama-6B是一个经过清洗和去重的英文文本数据集,包含约60亿个token,由Commoncrawl、C4等多个来源组成,主要用于文本生成任务。该数据集是更大规模SlimPajama-627B的子集,经过采样处理以便于使用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作