princeton-nlp/QuRatedPajama-1B_tokens_for_analysis
收藏Hugging Face2024-04-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/QuRatedPajama-1B_tokens_for_analysis
下载链接
链接失效反馈官方服务:
资源简介:
QuRatedPajama-1B_tokens_for_analysis数据集是从princeton-nlp/QuRatedPajama-260B中提取的1B token子集,进一步来源于cerebras/SlimPajama-627B,并由princeton-nlp/QuRater-1.3B进行质量评分。评分标准包括教育价值、事实与琐事、写作风格和所需专业知识。该数据集适用于质量评分的分析,并提供了每个512 token片段的质量评分。在预处理步骤中,文档被分割为1024 token的块,并使用Llama-2 tokenizer进行标记化。使用该数据集时应注意偏见问题,并建议在现实世界部署前进行全面的偏见评估。
提供机构:
princeton-nlp
原始信息汇总
数据集概述
数据集名称
QuRating: Selecting High-Quality Data for Training Language Models
数据集目的
用于选择高质量数据以训练语言模型。



