five

princeton-nlp/QuRatedPajama-1B_tokens_for_analysis

收藏
Hugging Face2024-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/QuRatedPajama-1B_tokens_for_analysis
下载链接
链接失效反馈
官方服务:
资源简介:
QuRatedPajama-1B_tokens_for_analysis数据集是从princeton-nlp/QuRatedPajama-260B中提取的1B token子集,进一步来源于cerebras/SlimPajama-627B,并由princeton-nlp/QuRater-1.3B进行质量评分。评分标准包括教育价值、事实与琐事、写作风格和所需专业知识。该数据集适用于质量评分的分析,并提供了每个512 token片段的质量评分。在预处理步骤中,文档被分割为1024 token的块,并使用Llama-2 tokenizer进行标记化。使用该数据集时应注意偏见问题,并建议在现实世界部署前进行全面的偏见评估。
提供机构:
princeton-nlp
原始信息汇总

数据集概述

数据集名称

QuRating: Selecting High-Quality Data for Training Language Models

数据集目的

用于选择高质量数据以训练语言模型。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作