five

stanford-crfm/DSIR-filtered-pile-50M

收藏
Hugging Face2023-09-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stanford-crfm/DSIR-filtered-pile-50M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从The Pile中通过DSIR数据选择方法筛选出的子集,目标分布是The Pile中的Wikipedia和BookCorpus2子集。数据集包含51.2M个训练样本,格式为jsonl。每个样本包含文本内容、元数据(文本来源)和一个非唯一标识符。数据集的创建过程包括从The Pile中选择102.4M个样本,然后将每两个样本连接起来以生成51.2M个样本,以确保样本长度足够长,减少填充。数据选择过程还包括从非Wikipedia和书籍数据中选择98.4M个样本,并从Wikipedia、BookCorpus2、Gutenberg和Books3中随机选择样本。数据集的创建还涉及手动质量过滤和DSIR重要性权重估计器的训练。
提供机构:
stanford-crfm
原始信息汇总

数据集概述

数据集描述

  • 名称: DSIR-filtered-pile-50M
  • 来源: 该数据集是The Pile数据集的一个子集,通过DSIR数据选择方法筛选得到。
  • 目标分布: 数据集的目标分布是The Pile中的Wikipedia和BookCorpus2子集。

语言

  • 主要语言: 英语 (EN)

数据集结构

  • 训练集: 包含51.2M个示例,格式为jsonl。

数据实例

  • 内容字段: "contents",包含文本内容。
  • 元数据字段: "metadata",包含文本来源信息,如果存在多个来源,则表示文本是由两个来源的文本拼接而成。
  • ID字段: "id",非唯一标识符,可忽略。

数据集创建

  • 数据处理: 首先从The Pile中选择102.4M个示例,然后将每两个示例拼接成一个,形成51.2M个示例。
  • 数据选择: 使用The Pile的验证集训练重要性权重估计器,目标为Wikipedia + BookCorpus2 + Gutenberg + Books3,原始数据来自The Pile的其他数据源。
  • 数据收集与规范化: 从The Pile中选择数据,分为30个随机块,使用最后29个块,将文档分割成128个单词的块,总计1.7B个示例。

使用数据集的考虑

  • 数据偏差: 数据集偏向于选择非Wikipedia和非书籍来源的数据,建议平衡地混合更多来自Wikipedia和书籍的数据。

数据集维护者

  • 维护者: Sang Michael Xie, Shibani Santurkar

引用信息

@article{xie2023data, author = {Sang Michael Xie and Shibani Santurkar and Tengyu Ma and Percy Liang}, journal = {arXiv preprint arXiv:2302.03169}, title = {Data Selection for Language Models via Importance Resampling}, year = {2023}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作