JonasGeiping/the_pile_WordPiecex32768_97b8e776baafb99c3892e6572a9f51b3
收藏Hugging Face2023-06-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JonasGeiping/the_pile_WordPiecex32768_97b8e776baafb99c3892e6572a9f51b3
下载链接
链接失效反馈官方服务:
资源简介:
这是一个预处理和标记化的数据集,用于cramming项目。原始数据来源于Pile,一个包含22个高质量数据集的多样化开源语言建模数据集。数据集仅包含训练分割,且为英文。数据集的创建过程包括预处理、标记化、数据清理和数据排序等步骤。
这是一个预处理和标记化的数据集,用于cramming项目。原始数据来源于Pile,一个包含22个高质量数据集的多样化开源语言建模数据集。数据集仅包含训练分割,且为英文。数据集的创建过程包括预处理、标记化、数据清理和数据排序等步骤。
提供机构:
JonasGeiping
原始信息汇总
数据集概述
基本信息
- 名称: pretokenized,filtered,sorted subset of the Pile
- 大小: 10B<n<100B
- 语言: 英语 (
EN) - 许可证: other
- 多语言性: 单语
数据集特征
- 特征:
input_ids: 序列类型为 int32
数据分割
- 分割:
train: 包含 43166767 个示例,数据大小为 22274051772 字节
下载信息
- 下载大小: 12187746609 字节
- 数据集大小: 22274051772 字节
任务
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
数据集创建
- 源数据集: the-pile
- 预处理配置:
- 规范化: 强制小写、去除重音、强制英语键盘、不转义空格
- 分词器: WordPiece,词汇大小 32768
- 序列长度: 128
- 数据清洗: 移除垃圾数据,垃圾数据阈值 0.25
- 数据排序: 按句子长度课程排序
使用考虑
- 限制与偏差: 训练数据经过进一步过滤和排序,未测试这些修改的意外后果。
数据集维护者
- 维护者: Jonas Geiping, 原始数据集主要由 Leo Gao 和 Stella Biderman 维护
许可证与引用
- 许可证: 请参考 https://huggingface.co/datasets/EleutherAI/pile 获取具体许可证信息
- 引用:
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



