five

text-corpus-v1

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://huggingface.co/datasets/MonumentalSystems/text-corpus-v1
下载链接
链接失效反馈
官方服务:
资源简介:
MonumentalSystems文本语料库是一个经过丰富过滤的多领域文本语料库,专为语言模型训练设计。该语料库结合了古典文学、合成哲学对话、科学解释和同行评审的科学论文,所有内容均经过去重和质量过滤处理。语料库包含三个主要领域:古典文学(732,309条)、通用知识(2,249,803条)和科学论文(251,111条)。每条数据包含丰富的元数据字段,如文本内容、领域、内容类型、主题、阅读水平、复杂性、作者、原始课程艺术、阶段、难度分数、Flesch阅读易度分数、文本词汇多样性测量、标记计数和单词计数等。此外,语料库还应用了多种质量过滤方法,包括MinHash近去重、DataTrove Gopher和FineWeb质量过滤器、MTLD词汇多样性阈值、英语语言分数过滤器和N-gram污染扫描。该数据集适用于文本生成、语言模型训练等多种自然语言处理任务。

The MonumentalSystems text corpus is a richly filtered multi-domain text corpus designed for language model training. This corpus combines classical literature, synthetic philosophical dialogues, scientific explanations, and peer-reviewed scientific papers, all of which have undergone deduplication and quality filtering. The corpus contains three main domains: classical literature (732,309 entries), general knowledge (2,249,803 entries), and scientific papers (251,111 entries). Each piece of data includes rich metadata fields such as text content, domain, content type, topic, reading level, complexity, author, original course art, stage, difficulty score, Flesch reading ease score, text lexical diversity measurement, token count, and word count. Additionally, the corpus applies various quality filtering methods, including MinHash near-deduplication, DataTrove Gopher and FineWeb quality filters, MTLD lexical diversity threshold, English language score filter, and N-gram contamination scanning. This dataset is suitable for various natural language processing tasks such as text generation and language model training.
创建时间:
2026-04-24
原始信息汇总

MonumentalSystems Text Corpus 数据集概述

基本信息

  • 语言: 英语 (en)
  • 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
  • 数据集大小: 100K 到 1M 之间
  • 标签: 文本生成、语言模型、语料库、合成数据、经典文献、科学

数据构成

数据集包含三个主要领域,共有 3,233,223 个文本块

领域 文本块数量
经典文学 (classics_literature) 732,309
通用知识 (general_knowledge) 2,249,803
科学论文 (science_papers) 251,111

元数据字段

每条数据包含丰富的元信息:

字段 类型 说明
text 字符串 文本内容(≤ 2048 字符)
domain 字符串 所属领域
content_type 字符串 细粒度类型(如经典、科学论文、哲学、科学解释等)
subject 字符串 学科领域(如哲学、文学、历史、生物学、物理学等)
reading_level 字符串 阅读水平(小学、初中、高中、大学、研究生)
complexity 字符串 复杂程度(基础、中级、高级、专家)
author 字符串 作者姓名
art 字符串 原始课程分类(三艺/四艺)
phase 字符串 阶段(哲学、三艺、四艺)
difficulty 浮点数 标准化的词汇难度得分(0-1)
flesch 浮点数 Flesch 阅读易读性得分
mtld 浮点数 文本词汇多样性度量
token_count 整数 近似 GPT-2 token 数量
word_count 整数 单词数量

质量过滤处理

数据集经过以下过滤流程:

  • MinHash 近似去重(阈值 0.8,128 次排列)
  • DataTrove Gopher + FineWeb 质量过滤器
  • MTLD 词汇多样性阈值
  • 英语语言得分过滤器
  • N-gram 污染扫描(确保零基准污染)

数据切分

数据集包含两个切分:

  • 训练集 (train): 对应文件 data/train-*.parquet
  • 验证集 (validation): 对应文件 data/val-*.parquet
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为MonumentalSystems Text Corpus,是一个经过精细筛选的多领域文本语料库,专为语言模型训练而设计。其构建方式融合了经典文学、合成哲学对话、科学解释以及经同行评审的科学论文,通过去重与质量过滤流程进行整合。具体而言,采用MinHash近重复检测算法(阈值为0.8,128个置换)去除冗余片段,并应用DataTrove Gopher与FineWeb质量过滤器筛选高质量文本,同时借助MTLD词汇多样性阈值、英语语言得分过滤器以及n-gram污染扫描确保纯净度。最终形成了涵盖古典文学(732,309块)、通用知识(2,249,803块)和科学论文(251,111块)三大领域的结构化语料。
特点
该数据集的特点在于其丰富的元数据标注和分层结构,为研究者提供了极高的灵活性与可定制性。每条文本块均包含领域、内容类型、主题、阅读水平、复杂度、作者等多元字段,其中阅读水平细分为小学至研究生五个等级,复杂度则分为基础、中级、高级与专家四档。此外,还提供规范化词汇难度分数(0-1)、Flesch易读性评分、MTLD文本词汇多样性度量以及GPT-2令牌计数等量化指标。这种精细的标注体系使得用户能够基于学科、难度或来源进行精准筛选,从而适配从基础教育到前沿研究的多样化需求。
使用方法
使用该数据集时,可直接通过HuggingFace的datasets库加载,默认分为训练集与验证集,数据以Parquet格式存储。基于丰富的元数据字段,用户可灵活运用filter方法进行条件筛选,例如提取仅包含哲学主题且阅读水平在大学及以上的样本,或筛选高中阅读水平的科学解释内容。亦可根据复杂度筛选高级专家级古典文学,或按令牌长度选取短文本块用于微调。这种设计使得数据集能够无缝集成到自然语言处理流水线中,支持文本生成、语言模型预训练及领域特定研究等多种任务。
背景与挑战
背景概述
MonumentalSystems Text Corpus(text-corpus-v1)是由MonumentalSystems团队于近期构建的一个多领域文本语料库,旨在为语言模型训练提供高质量、去重且经过精细过滤的数据资源。该数据集融合了古典文学、合成哲学对话、科学解释以及同行评审的科学论文,覆盖732,309个经典文学块、2,248,003个通用知识块和251,111个科学论文块,并通过元数据字段如学科、阅读水平、复杂度和作者等实现细粒度检索。其创建背景源于当前自然语言处理领域对多样化、高质量训练数据的迫切需求,尤其在提升模型在学术、科学和人文领域的理解与生成能力方面具有显著影响力,为研究人员提供了兼具广度和深度的文本资源,推动语言模型向更专业化、更知识密集的方向发展。
当前挑战
该数据集所解决的领域问题主要体现在语言模型训练数据面临的同质化与低质化挑战,通过整合古典文学、科学论文和哲学对话等多元领域,克服了传统语料库中知识覆盖不足、风格单一的问题,从而增强模型在专业学科的泛化能力。在构建过程中,其主要挑战包括:一、去重与质量控制,采用MinHash近似去重(阈值0.8,128排列)及DataTrove Gopher与FineWeb质量过滤器,确保数据无冗余且符合学术标准;二、多源数据整合与标准化,需统一不同领域文本的格式、编码和元数据标注,如阅读水平、复杂度和学科分类,保证内部一致性与可检索性;三、基准污染避免,通过N-gram污染扫描杜绝与现有测试集的重合,确保数据纯净且适合模型评估与微调。
常用场景
经典使用场景
作为语言模型预训练与微调的多领域语料库,text-corpus-v1凭借其涵盖经典文学、科学论文与合成对话的丰富内容,为文本生成任务提供了高质量的训练素材。研究者可根据阅读难度、学科主题或文本复杂度等元数据字段,灵活筛选出适配不同教育阶段的子集,例如面向高中生的科学解释文本或面向研究生的哲学论著,从而在可控的领域分布下开展语言模型的能力评估与持续训练。
实际应用
在实际应用中,text-corpus-v1可作为教育科技领域智能写作辅导系统的训练基石,通过其按年级水准与学科主题划分的文本子集,辅助开发面向不同认知水平的学习材料生成工具。同时,该语料库得益于合成对话与哲学文本的融入,能够为对话式人工智能提供兼具深度与严谨性的训练样本,从而提升机器在科学普及与人文问答场景中的表达质量与逻辑连贯性。
衍生相关工作
text-corpus-v1的设计理念催生了多项后续研究,例如基于其元数据体系构建的可读性预测模型,以及利用学科标签进行领域适应型语言模型训练的探索。此外,该数据集作为零污染基准,被用于验证新型去重算法与质量筛选管线的有效性,推动了如DataTrove和FineWeb等工具在语料库构建中的标准化应用,为开放科学社区树立了可复现的语料预处理范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作