SlimPajama-Meta-rater-Readability-30B
收藏Hugging Face2025-06-14 更新2025-06-15 收录
下载链接:
https://huggingface.co/datasets/opendatalab/SlimPajama-Meta-rater-Readability-30B
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从SlimPajama-627B语料库中根据可读性筛选出的最优秀的300亿个token。它使用了专门训练的ModernBERT评分器来评估文本的清晰度、连贯性和易读性。数据集涵盖了SlimPajama的所有领域,包括CommonCrawl、C4、GitHub、书籍、ArXiv、维基百科和StackExchange。
创建时间:
2025-06-13
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量数据筛选对模型预训练至关重要。SlimPajama-Meta-rater-Readability-30B数据集采用PRRC框架中的可读性维度,通过ModernBERT评分模型从原始627B令牌的SlimPajama语料库中精选出30B最优令牌。该评分模型基于Llama-3.3-70B-Instruct对50万样本的标注进行微调,从文本清晰度、连贯性和易理解性三个维度进行0-5分的量化评估,最终保留得分最高的优质文本。
使用方法
该数据集主要面向大规模语言模型预训练场景,研究者可直接加载预处理后的30B令牌进行模型训练。使用时应关注文档附带的可读性评分,可通过阈值筛选进一步控制数据质量。由于数据已通过PRRC框架优化,建议与其他维度筛选的子集配合使用,以实现多角度数据选择。配套代码库提供完整的评分模型实现,支持用户根据需求调整筛选策略。
背景与挑战
背景概述
SlimPajama-Meta-rater-Readability-30B数据集由OpenDataLab团队于2025年推出,作为SlimPajama-627B语料库的精炼子集,专注于提升预训练语言模型的数据质量。该数据集基于PRRC(专业性、可读性、推理性和清洁度)框架中的可读性维度,通过ModernBERT模型对文本的清晰度、连贯性和易理解性进行评分与筛选。核心研究问题在于如何通过多维数据选择方法优化预训练语言模型的输入数据质量,从而提升模型性能。该数据集的发布为自然语言处理领域提供了高质量的训练资源,推动了数据选择与模型预训练结合的深入研究。
当前挑战
SlimPajama-Meta-rater-Readability-30B数据集面临的挑战主要体现在两个方面。其一,在领域问题层面,如何准确评估文本的可读性并筛选出高质量数据是一个复杂任务,需要平衡主观评价与客观指标之间的关系。其二,在构建过程中,大规模语料库的标注与评分需要耗费大量计算资源,且依赖Llama-3.3-70B-Instruct等先进模型的标注能力,这对数据集的扩展性与可复现性提出了较高要求。此外,跨领域文本的可读性标准可能存在差异,如何确保评分的一致性也是构建过程中的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,SlimPajama-Meta-rater-Readability-30B数据集因其精选的高可读性文本而成为预训练语言模型的理想选择。研究者们常利用该数据集来训练和优化生成式语言模型,特别是在需要模型输出清晰、连贯文本的场景中。数据集的文本覆盖了CommonCrawl、C4、GitHub等多个领域,确保了内容的多样性和广泛适用性。
解决学术问题
该数据集通过PRRC框架中的可读性维度,有效解决了预训练数据质量参差不齐的问题。其基于ModernBERT的评分机制筛选出的高可读性文本,显著提升了语言模型在生成清晰、易理解内容方面的性能。这一方法为数据选择提供了新的研究方向,尤其是在多维度数据质量评估领域。
实际应用
在实际应用中,SlimPajama-Meta-rater-Readability-30B数据集被广泛应用于智能写作助手、教育技术工具以及内容生成系统。例如,在自动摘要生成或机器翻译任务中,使用该数据集训练的模型能够输出更符合人类阅读习惯的文本,从而提升用户体验。
数据集最近研究
最新研究方向
在自然语言处理领域,高质量数据的选择对预训练语言模型的性能具有决定性影响。SlimPajama-Meta-rater-Readability-30B数据集通过引入PRRC框架中的可读性维度,为数据筛选提供了新的方法论。该数据集采用ModernBERT评分模型,基于Llama-3.3-70B-Instruct的标注进行微调,从627B原始语料中精选出30B最具可读性的文本。这种基于多维度的数据选择方法,正在成为大模型预训练领域的前沿研究方向。近期研究表明,通过可读性筛选的数据能显著提升模型在文本生成、语义理解等任务上的表现,同时降低训练过程中的噪声干扰。该数据集的发布为探索数据质量与模型性能的关系提供了重要实验基础,其方法论对优化大规模语言模型的训练流程具有指导意义。
以上内容由遇见数据集搜集并总结生成



