princeton-nlp/QuRatedPajama-260B

Name: princeton-nlp/QuRatedPajama-260B
Creator: princeton-nlp
Published: 2024-04-16 01:47:36
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/princeton-nlp/QuRatedPajama-260B

下载链接

链接失效反馈

官方服务：

资源简介：

QuRatedPajama-260B数据集是cerebras/SlimPajama-627B数据集的一个子集，包含了260B个token，并由princeton-nlp/QuRater-1.3B模型根据四个标准进行了序列级别的质量评分。这四个标准包括：教育价值（如文本是否包含清晰的解释、逐步推理或问答）、事实与琐事（文本中包含多少事实和琐事知识，偏好特定事实和冷门知识而非常见知识）、写作风格（文本的写作风格是否精炼和优秀）和所需专业知识（理解文本所需的专业知识和前提知识的多少）。在预处理步骤中，文档被分割成1024个token的块，并使用Llama-2 tokenizer进行tokenization。文件还强调了负责任使用该数据集的重要性，指出了质量评分中可能存在的偏见，并建议在训练语言模型时进行全面的评估。

提供机构：

princeton-nlp

原始信息汇总

QuRatedPajama-260B

数据集概述

QuRatedPajama是一个260B token的子集，来源于cerebras/SlimPajama-627B，并通过princeton-nlp/QuRater-1.3B进行了序列级质量评分的标注，涵盖以下四个标准：

教育价值 - 例如文本是否包含清晰的解释、逐步推理或问题与答案。
事实与琐事 - 文本包含多少事实和琐事知识，其中特定事实和晦涩的琐事优于更常见的知识。
写作风格 - 文本的写作风格有多精致和优秀。
所需专业知识 - 理解文本所需的专业知识和先验知识有多少。

在预处理步骤中，我们将文档分割成正好1024个token的块，并提供使用Llama-2 tokenizer的tokenization在input_ids列中。

使用指南

在论文中，我们记录了质量评分中存在的各种偏差（与领域、主题、社会角色、地区和语言相关的偏差 - 见论文第6节）。因此，使用QuRating进行数据选择可能会对正在训练的语言模型产生意外和有害的影响。我们强烈建议在实际部署前对语言模型进行这些和其他类型偏差的全面评估。我们希望发布数据/模型能够促进未来旨在发现和缓解此类偏差的研究。请注意，质量评分不衡量文本的社会或文学价值，也不应用于文本或人口统计学研究。

引用

@article{wettig2024qurating, title={QuRating: Selecting High-Quality Data for Training Language Models}, author={Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen}, journal={arXiv preprint 2402.09739}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集