stanford-crfm/DSIR-filtered-pile-50M

Name: stanford-crfm/DSIR-filtered-pile-50M
Creator: stanford-crfm
Published: 2023-09-16 14:50:10
License: 暂无描述

Hugging Face2023-09-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/stanford-crfm/DSIR-filtered-pile-50M

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从The Pile中通过DSIR数据选择方法筛选出的子集，目标分布是The Pile中的Wikipedia和BookCorpus2子集。数据集包含51.2M个训练样本，格式为jsonl。每个样本包含文本内容、元数据（文本来源）和一个非唯一标识符。数据集的创建过程包括从The Pile中选择102.4M个样本，然后将每两个样本连接起来以生成51.2M个样本，以确保样本长度足够长，减少填充。数据选择过程还包括从非Wikipedia和书籍数据中选择98.4M个样本，并从Wikipedia、BookCorpus2、Gutenberg和Books3中随机选择样本。数据集的创建还涉及手动质量过滤和DSIR重要性权重估计器的训练。

提供机构：

stanford-crfm

原始信息汇总

数据集概述

数据集描述

名称: DSIR-filtered-pile-50M
来源: 该数据集是The Pile数据集的一个子集，通过DSIR数据选择方法筛选得到。
目标分布: 数据集的目标分布是The Pile中的Wikipedia和BookCorpus2子集。

语言

主要语言: 英语 (EN)

数据集结构

训练集: 包含51.2M个示例，格式为jsonl。

数据实例

内容字段: "contents"，包含文本内容。
元数据字段: "metadata"，包含文本来源信息，如果存在多个来源，则表示文本是由两个来源的文本拼接而成。
ID字段: "id"，非唯一标识符，可忽略。

数据集创建

数据处理: 首先从The Pile中选择102.4M个示例，然后将每两个示例拼接成一个，形成51.2M个示例。
数据选择: 使用The Pile的验证集训练重要性权重估计器，目标为Wikipedia + BookCorpus2 + Gutenberg + Books3，原始数据来自The Pile的其他数据源。
数据收集与规范化: 从The Pile中选择数据，分为30个随机块，使用最后29个块，将文档分割成128个单词的块，总计1.7B个示例。

使用数据集的考虑

数据偏差: 数据集偏向于选择非Wikipedia和非书籍来源的数据，建议平衡地混合更多来自Wikipedia和书籍的数据。

数据集维护者

维护者: Sang Michael Xie, Shibani Santurkar

引用信息

论文: Data Selection for Language Models via Importance Resampling
引用格式:

@article{xie2023data, author = {Sang Michael Xie and Shibani Santurkar and Tengyu Ma and Percy Liang}, journal = {arXiv preprint arXiv:2302.03169}, title = {Data Selection for Language Models via Importance Resampling}, year = {2023}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集