MonumentalSystems/quality-corpus-180m-v1
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/MonumentalSystems/quality-corpus-180m-v1
下载链接
链接失效反馈官方服务:
资源简介:
MonumentalSystems质量语料库180M v1是一个用于文本生成的高质量语料库,包含两个配置:default和enriched_subset。default配置是原始的完整parquet语料库,文件路径为quality corpus/train-*.parquet和quality corpus/validation-*.parquet。enriched_subset是一个较小的本地丰富JSONL子集,包含9个JSONL分片,共8,679行,并添加了多个额外字段,如内容类型、主题、阅读级别、复杂性、课程阶段、难度、Flesch阅读易读性、MTLD、质量通过、质量原因、字符计数和估计的标记计数。该子集是从本地清理的分片生成的,主题和内容类型字段是启发式推断字段,可能仍需规则细化。
MonumentalSystems Quality Corpus 180M v1 is a high-quality corpus for text generation, featuring two configurations: default and enriched_subset. The default configuration is the original full parquet corpus, with files located at quality corpus/train-*.parquet and quality corpus/validation-*.parquet. The enriched_subset is a smaller locally enriched JSONL subset, consisting of 9 JSONL shards with 8,679 rows, and includes additional fields such as content_type, subject, doremi_domain, reading_level, complexity, curriculum_stage, difficulty, flesch, mtld, quality_pass, quality_reason, char_count, and token_count_est. This subset was produced from local cleaned shards, with the subject and content_type fields being heuristic inferences that may still require rule refinement.
提供机构:
MonumentalSystems
搜集汇总
数据集介绍

构建方式
MonumentalSystems Quality Corpus 180M v1是一个经过质量筛选与富化标注的大规模英文文本语料库。在构建上,数据集提供了两种配置:default配置保留了完整的原始Parquet格式语料,涵盖训练集与验证集;enriched_subset配置则从本地清洗的语料分片中提取了一个规模较小的JSONL子集,包含8,679条数据,并通过启发式规则与自动评分工具额外注入了内容类型、主题、阅读难度、复杂度、课程阶段、Flesch可读性、MTLD指标、质量评分与推理说明、字符及预估标记数等丰富字段,从而为研究者提供了多维度质量标注的样本子集。
使用方法
在使用上,用户可通过HuggingFace Datasets库加载default配置以获取完整的Parquet格式语料,适用于大规模语言模型的预训练任务;亦可通过enriched_subset配置获取附带质量标注的JSONL子集,用于训练文本质量自动评估模型、开展课程学习实验或研究文本难度与质量的关系。两个配置均可通过指定配置名称与数据分片索引灵活读取,其中enriched_subset的9个JSONL分片便于分布式处理与增量式标注分析。
背景与挑战
背景概述
MonumentalSystems Quality Corpus 180M v1是由MonumentalSystems机构于2023年前后创建的大规模英文文本语料库,旨在为自然语言处理领域提供经过质量筛选、评分与富化标注的高质量训练数据。该数据集包含约1.8亿条文本样本,涵盖训练集与验证集,并额外提供了一个包含近8700条记录的富化子集,该子集补充了内容类型、主题、阅读难度、复杂度、课程阶段、Flesch可读性指数及文本质量评分等多元元数据。该语料库的发布有效缓解了通用互联网文本噪声大、领域分布不均的问题,为预训练语言模型、文本质量评估及教育型内容过滤等研究提供了坚实的数据基础,对提升模型训练效率与生成文本的可靠性具有重要推动作用。
当前挑战
该数据集主要应对的领域挑战在于:通用互联网文本语料中普遍存在的低质量、重复、偏离学习目标的内容严重制约了语言模型训练效果,亟需一套自动化、可扩展的文本质量评估与筛选机制。在构建过程中,团队面临两大技术难题:其一,如何设计高效的启发式规则与自动评分模型以准确抓取高质量文本,如富化子集中`subject`和`content_type`字段仍存在规则推理不完善的问题;其二,如何在1.8亿量级上兼顾筛选速度与标注细粒度,仅对较小子集进行深度富化即体现了计算资源与标注成本之间的现实权衡,后续需优化规则算法以实现全量数据的高质量标注。
常用场景
经典使用场景
在自然语言处理与大规模语言模型预训练的广袤领域中,数据质量是决定模型性能的基石。MonumentalSystems Quality Corpus 180M v1(简称quality-corpus-180m-v1)作为一个经过严格质量过滤、评分与富化的大规模英文语料库,其经典使用场景在于为文本生成模型提供高品质的预训练与微调数据。该数据集包含约1.8亿条文本样本,通过默认配置提供完整的Parquet格式语料,研究人员可直接将其作为原始文本源,用于训练从基础GPT类模型到更复杂的Encoder-Decoder架构,确保模型在信息丰富、噪声极低的语料上习得流畅且语义连贯的语言表征。
解决学术问题
该数据集的核心价值在于解决了学术研究中长期困扰的“垃圾进,垃圾出”问题。传统互联网爬取语料往往充斥着重复、低质、粗俗或无关内容,直接使用会严重削弱语言模型的泛化能力与生成质量。quality-corpus-180m-v1通过内置的质量筛选机制(如quality_pass字段)与多维度的文档评估指标(包括阅读难度Flesch分数、词汇多样性MTLD、复杂度等级等),为研究者提供了一套可复现的数据净化基准。它使得对比不同数据质量策略对模型性能影响的研究成为可能,推动了“数据为中心”的NLP范式演进,为构建更鲁棒、更安全的生成式AI奠定了实验基础。
实际应用
在实际产业应用中,该数据集的意义超越了单纯的学术实验,成为许多商业级文本生成系统的数据基石。它特别适用于需要高度可控内容产出的场景,例如智能写作辅助工具、自动摘要生成、教育领域的自适应学习材料编写以及客服对话系统的知识注入。利用其提供的富化子集(enriched_subset)中的内容类型、学科主题与课程阶段等标签,开发者可以快速构建针对特定领域(如科学、文学或技术文档)的垂直模型。此外,基于该语料训练的模型在降低内容偏见、提升事实准确性方面表现更优,可直接部署于新闻聚合平台或法规分析等对文本可靠性有严苛要求的应用环境中。
数据集最近研究
最新研究方向
在自然语言处理领域,大规模文本语料库的构建与质量筛选正成为研究热点。MonumentalSystems Quality Corpus 180M v1数据集通过引入多维度质量评估指标(如阅读等级、复杂度、Flesch指数、MTLD等)及自动推理字段(如内容类型、学科领域),为文本生成模型提供精细化训练资源。该数据集不仅包含1.8亿条经过质量过滤的原始语料,还探索了基于本地规则的小规模富化子集,融合了难度分级与课程阶段标签,有助于推动教育文本生成、资源受限场景下的高质量数据合成以及语料库自动标注方法的进步。其意义在于为标准文本语料库加入可量化的文本质量维度,提升模型的生成控质能力,响应了当前大模型训练对数据纯净度与可控性的迫切需求。
以上内容由遇见数据集搜集并总结生成



