Literature-zh
收藏Hugging Face2025-03-30 更新2025-03-31 收录
下载链接:
https://huggingface.co/datasets/Geralt-Targaryen/Literature-zh
下载链接
链接失效反馈官方服务:
资源简介:
这个数据集是由公共爬虫收集的中文书籍、论文、法律文件和专利组成的复合数据集。经过数据清洗,移除了含有非拉丁、非中文字符比例超过2%的文本,以及含有大量特殊字符的文本,同时将繁体中文转换为了简体中文。数据集中的文档还经过语言质量评估,移除了质量较低的文档。数据集包含47,087,808个样本,磁盘大小为214G的parquet文件。
This composite dataset consists of Chinese books, academic papers, legal documents and patents collected through public crawlers. Subsequent data cleaning steps included removing texts with over 2% proportion of non-Latin and non-Chinese characters, texts containing excessive special characters, as well as converting all Traditional Chinese content to Simplified Chinese. Additionally, all documents in the dataset underwent language quality evaluation, and low-quality documents were removed. The dataset contains 47,087,808 samples and is stored as Parquet files with a total disk size of 214 GB.
创建时间:
2025-03-29
原始信息汇总
Literature-zh 数据集概述
数据集简介
- 类型:中文书籍、论文、法律文件和专利的复合数据集
- 数据来源:Common Crawl
- 许可证:Apache-2.0
数据处理流程
数据清洗
- 移除包含超过2%非拉丁、非中文字符的文本
- 移除包含大量特殊字符的文本
- 将繁体中文转换为简体中文
模型过滤
- 使用Qwen2.5-32B-Instruct模型生成语言质量标注(1-5分)
- 标注样本量:中文398K,英文250K
- 基于标注训练XLM-RoBERT-large分类器(回归任务)
- 移除分类器评分为1或2的文档
数据集统计
- 样本数量:47,087,808
- 磁盘大小:214GB(parquet格式)
搜集汇总
数据集介绍

构建方式
在中文文献数据处理领域,Literature-zh数据集通过多源异构数据整合与精细化处理构建而成。该数据集汇集了书籍、论文、法律文书及专利等多元文本类型,数据源自Common Crawl的公开网络资源。构建过程中采用双重过滤机制:字符层面剔除非拉丁非中文字符占比超过2%的文本,并清除特殊字符集中的低质内容;语言层面通过Qwen2.5-32B-Instruct模型对39.8万中文样本进行1-5级质量标注,基于标注训练XLM-RoBERT-large分类器实施自动化质量筛选,最终保留4700余万条优质文本。
特点
作为综合性中文语料库,Literature-zh展现出鲜明的专业特征与质量优势。数据集覆盖学术、法律、技术等专业领域,文本类型跨度达四种主要文献形态。其核心价值体现在严格的字符级清洗流程与基于大语言模型的质量控制体系,确保文本纯净度与语言规范性。技术层面采用简繁统一处理,所有传统中文文本均转换为简体格式,增强数据一致性。214GB的Parquet格式存储方案兼顾数据规模与存取效率,为大规模语言模型训练提供高质量基础资源。
使用方法
针对自然语言处理研究需求,Literature-zh数据集支持多种应用场景。研究者可直接加载Parquet格式文件进行分布式处理,适用于预训练语言模型、文本分类等任务。使用前建议进行领域分布分析,因数据集包含法律文书与专利等专业文本,需注意领域适应性调整。质量评分机制保留在元数据中,支持按需筛选不同质量等级的语料。对于特定研究场景,可结合原始质量标注信息实施分层抽样,平衡数据质量与多样性需求。
背景与挑战
背景概述
Literature-zh数据集是一个综合性中文文本资源库,由书籍、学术论文、法律文书及专利文献等多类型数据构成,源自Common Crawl的公开网络爬取。该数据集的构建旨在为自然语言处理领域提供高质量、多样化的中文文本语料,满足大规模语言模型预训练、文本挖掘等研究需求。数据清洗过程中采用了严格的非中文字符过滤机制,并实现了繁体至简体的标准化转换,体现了对语料纯净度与一致性的高标准要求。其47万余条样本、214GB的庞大体量,标志着中文自然语言处理资源建设的重要进展。
当前挑战
该数据集面临的核心挑战体现在领域问题与构建过程两个维度。在领域问题层面,如何精准评估异构文本(如法律条文与文学作品的混合)对下游任务(如文本分类、实体识别)的适用性,成为模型效验的关键难题。构建过程中,非拉丁字符的阈值设定可能导致方言或专业术语的误过滤,而基于Qwen2.5-32B-Instruct的质量评分机制虽提升语料质量,但模型偏差可能引入系统性误差。此外,简繁转换虽提升一致性,但文化语境差异的保留仍需深入探讨。
常用场景
经典使用场景
在自然语言处理领域,Literature-zh数据集因其涵盖书籍、论文、法律文书及专利等多样化文本,成为训练中文语言模型的理想选择。该数据集通过严格的清洗和过滤流程,确保了文本质量,特别适用于需要高质量中文语料的预训练任务。研究人员常利用其丰富的语料分布,提升模型在专业术语、长文本理解等方面的表现。
解决学术问题
Literature-zh有效解决了中文NLP研究中高质量语料稀缺的难题,尤其是专业领域文本的覆盖不足问题。其多源异构的数据构成,为语言模型泛化能力研究、领域适应迁移学习等方向提供了基准支持。通过引入基于XLM-RoBERT的自动质量评估,该数据集进一步推动了数据清洗方法学的标准化进程。
衍生相关工作
以Literature-zh为基础,学界已涌现多项重要研究,包括基于多领域迁移学习的法律文本分类框架、融合专利知识的学术创新性评估模型等。其质量标注体系更启发了后续工作如CleanText-zh数据集的构建,推动了中文语料评估标准的范式革新。
以上内容由遇见数据集搜集并总结生成



