five

JonasGeiping/the_pile_WordPiecex32768_2efdb9d060d1ae95faf952ec1a50f020

收藏
Hugging Face2023-06-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JonasGeiping/the_pile_WordPiecex32768_2efdb9d060d1ae95faf952ec1a50f020
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个预处理和标记化的数据集,用于cramming项目。原始数据来源于The Pile,一个包含22个高质量数据集的825 GiB的多样化开源语言建模数据集。数据集仅包含训练分割,且为英文。数据集的创建过程包括特定的预处理步骤,如强制小写、去除重音、使用英语键盘、使用WordPiece标记器等。数据集的使用需要考虑其过滤和排序可能带来的未测试的后果。

这是一个预处理和标记化的数据集,用于cramming项目。原始数据来源于The Pile,一个包含22个高质量数据集的825 GiB的多样化开源语言建模数据集。数据集仅包含训练分割,且为英文。数据集的创建过程包括特定的预处理步骤,如强制小写、去除重音、使用英语键盘、使用WordPiece标记器等。数据集的使用需要考虑其过滤和排序可能带来的未测试的后果。
提供机构:
JonasGeiping
原始信息汇总

数据集概述

数据集基本信息

  • 名称: the_pile_WordPiecex32768_2efdb9d060d1ae95faf952ec1a50f020
  • 语言: 英语 (EN)
  • 许可证: 其他
  • 多语言性: 单语
  • 美观名称: pretokenized,filtered,sorted subset of the Pile
  • 大小类别: 10B<n<100B
  • 源数据集: the-pile
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • 论文代码ID: the-pile-cramming

数据集特征

  • 特征名称: input_ids
  • 序列类型: int32

数据分割

  • 分割名称: train
  • 数据量:
    • 字节数: 43860000000
    • 示例数: 85000000
  • 下载大小: 24001057282
  • 数据集大小: 43860000000

数据集创建

  • 预处理配置:
    • 规范化: 强制小写, 去除重音, 强制英语键盘, 不转义空格
    • 分词器: WordPiece
    • 词汇大小: 32768
    • 序列长度: 128
    • 数据清洗: 不简化命名实体, 不移除空格, 移除垃圾数据, 垃圾数据阈值: 0.25, 不重复数据, 重复阈值: 75
    • 数据排序: 按句子长度课程

使用数据注意事项

  • 限制与偏差: 此训练数据经过进一步过滤和排序,未测试这些修改的意外后果。

数据集维护者

  • 原始数据集主要维护者: Leo Gao, Stella Biderman
  • 此子集维护者: Jonas Geiping

许可证信息

  • 详细信息: 请参考 https://huggingface.co/datasets/EleutherAI/pile 根据使用的子集查看具体许可证。

引用信息

  • 此子集:

    @article{geiping_cramming_2022, title = {Cramming: {{Training}} a {{Language Model}} on a {{Single GPU}} in {{One Day}}}, author = {Geiping, Jonas and Goldstein, Tom}, year = {2022}, eprint = {2212.14034}, publisher = {{arXiv}}, doi = {10.48550/arXiv.2212.14034}, url = {http://arxiv.org/abs/2212.14034}, archiveprefix = {arxiv}, journal = {arxiv:2212.14034[cs]} }

  • 原始数据集:

    @article{gao2020pile, title={The {P}ile: An 800{GB} dataset of diverse text for language modeling}, author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others}, journal={arXiv preprint arXiv:2101.00027}, year={2020} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作