JonasGeiping/the_pile_WordPiecex32768_2efdb9d060d1ae95faf952ec1a50f020
收藏数据集概述
数据集基本信息
- 名称: the_pile_WordPiecex32768_2efdb9d060d1ae95faf952ec1a50f020
- 语言: 英语 (
EN) - 许可证: 其他
- 多语言性: 单语
- 美观名称: pretokenized,filtered,sorted subset of the Pile
- 大小类别: 10B<n<100B
- 源数据集: the-pile
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- 论文代码ID: the-pile-cramming
数据集特征
- 特征名称: input_ids
- 序列类型: int32
数据分割
- 分割名称: train
- 数据量:
- 字节数: 43860000000
- 示例数: 85000000
- 下载大小: 24001057282
- 数据集大小: 43860000000
数据集创建
- 预处理配置:
- 规范化: 强制小写, 去除重音, 强制英语键盘, 不转义空格
- 分词器: WordPiece
- 词汇大小: 32768
- 序列长度: 128
- 数据清洗: 不简化命名实体, 不移除空格, 移除垃圾数据, 垃圾数据阈值: 0.25, 不重复数据, 重复阈值: 75
- 数据排序: 按句子长度课程
使用数据注意事项
- 限制与偏差: 此训练数据经过进一步过滤和排序,未测试这些修改的意外后果。
数据集维护者
- 原始数据集主要维护者: Leo Gao, Stella Biderman
- 此子集维护者: Jonas Geiping
许可证信息
- 详细信息: 请参考 https://huggingface.co/datasets/EleutherAI/pile 根据使用的子集查看具体许可证。
引用信息
-
此子集:
@article{geiping_cramming_2022, title = {Cramming: {{Training}} a {{Language Model}} on a {{Single GPU}} in {{One Day}}}, author = {Geiping, Jonas and Goldstein, Tom}, year = {2022}, eprint = {2212.14034}, publisher = {{arXiv}}, doi = {10.48550/arXiv.2212.14034}, url = {http://arxiv.org/abs/2212.14034}, archiveprefix = {arxiv}, journal = {arxiv:2212.14034[cs]} }
-
原始数据集:
@article{gao2020pile, title={The {P}ile: An 800{GB} dataset of diverse text for language modeling}, author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and others}, journal={arXiv preprint arXiv:2101.00027}, year={2020} }



