stanford-crfm/DSIR-filtered-pile-50M
收藏Hugging Face2023-09-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stanford-crfm/DSIR-filtered-pile-50M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从The Pile中通过DSIR数据选择方法筛选出的子集,目标分布是The Pile中的Wikipedia和BookCorpus2子集。数据集包含51.2M个训练样本,格式为jsonl。每个样本包含文本内容、元数据(文本来源)和一个非唯一标识符。数据集的创建过程包括从The Pile中选择102.4M个样本,然后将每两个样本连接起来以生成51.2M个样本,以确保样本长度足够长,减少填充。数据选择过程还包括从非Wikipedia和书籍数据中选择98.4M个样本,并从Wikipedia、BookCorpus2、Gutenberg和Books3中随机选择样本。数据集的创建还涉及手动质量过滤和DSIR重要性权重估计器的训练。
提供机构:
stanford-crfm
原始信息汇总
数据集概述
数据集描述
- 名称: DSIR-filtered-pile-50M
- 来源: 该数据集是The Pile数据集的一个子集,通过DSIR数据选择方法筛选得到。
- 目标分布: 数据集的目标分布是The Pile中的Wikipedia和BookCorpus2子集。
语言
- 主要语言: 英语 (EN)
数据集结构
- 训练集: 包含51.2M个示例,格式为jsonl。
数据实例
- 内容字段: "contents",包含文本内容。
- 元数据字段: "metadata",包含文本来源信息,如果存在多个来源,则表示文本是由两个来源的文本拼接而成。
- ID字段: "id",非唯一标识符,可忽略。
数据集创建
- 数据处理: 首先从The Pile中选择102.4M个示例,然后将每两个示例拼接成一个,形成51.2M个示例。
- 数据选择: 使用The Pile的验证集训练重要性权重估计器,目标为Wikipedia + BookCorpus2 + Gutenberg + Books3,原始数据来自The Pile的其他数据源。
- 数据收集与规范化: 从The Pile中选择数据,分为30个随机块,使用最后29个块,将文档分割成128个单词的块,总计1.7B个示例。
使用数据集的考虑
- 数据偏差: 数据集偏向于选择非Wikipedia和非书籍来源的数据,建议平衡地混合更多来自Wikipedia和书籍的数据。
数据集维护者
- 维护者: Sang Michael Xie, Shibani Santurkar
引用信息
@article{xie2023data, author = {Sang Michael Xie and Shibani Santurkar and Tengyu Ma and Percy Liang}, journal = {arXiv preprint arXiv:2302.03169}, title = {Data Selection for Language Models via Importance Resampling}, year = {2023}, }



