government-doc-corpus

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/jun-2018/government-doc-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个配置版本，分别为default、pretrain、sft和sft-map-reduce。default和pretrain配置包含文本id、页面编号、文本内容和文本长度等信息。sft配置则包含了文本前后缀信息、文档类型、文档文件名、文档文本和长度等。sft-map-reduce配置则专注于步骤输入和输出信息。每个配置都提供了一个训练集。

创建时间：

2025-05-04

原始信息汇总

数据集概述

基本信息

许可证: MIT
数据集地址: https://huggingface.co/datasets/jun-2018/government-doc-corpus

配置详情

1. default 配置

特征:
- id: string
- page: int64
- text: string
- len: int64
数据分割:
- train: 2209 个样本，8477457 字节
下载大小: 3599645 字节
数据集大小: 8477457 字节

2. pretrain 配置

特征:
- id: string
- page: int64
- text: string
- len: int64
数据分割:
- train: 2209 个样本，8477457 字节
下载大小: 3599645 字节
数据集大小: 8477457 字节

3. sft 配置

特征:
- affix_id: string
- affix_text: string
- affix_len: int64
- doc_type: string
- doc_file_name: string
- doc_text: string
- doc_len: int64
- doc_affix_ids: sequence of string
数据分割:
- train: 559 个样本，7899149 字节
下载大小: 3544153 字节
数据集大小: 7899149 字节

4. sft-map-reduce 配置

特征:
- affix_id: string
- step: string
- inputs: sequence of string
- output: string
数据分割:
- train: 3237 个样本，9455240 字节
下载大小: 4152036 字节
数据集大小: 9455240 字节

数据文件路径

default: data/train-*
pretrain: pretrain/train-*
sft: sft/train-*
sft-map-reduce: sft-map-reduce/train-*

搜集汇总

数据集介绍

构建方式

在政务文档处理领域，government-doc-corpus数据集通过系统化采集与结构化处理构建而成。该数据集采用多配置架构，包含default、pretrain、sft和sft-map-reduce四种数据形态，每种配置均经过严格的字段定义和质量控制。原始文档经过文本提取、分页处理、长度计算等标准化流程，并针对不同应用场景进行专项优化，如sft配置特别设计了文档类型、附件关联等政务场景特有字段。

特点

该数据集最显著的特点是具备政务文档特有的多层次结构表征能力。除基础文本内容外，精确记录了页面位置、文本长度等元信息，sft配置更包含文档类型、附件关联等专业字段。数据规模达百万字节级，涵盖559至3237个不等的样本量，各配置间保持字段一致性又突出功能差异，如sft-map-reduce配置专为分布式处理设计，包含步骤标记和输入输出序列。

使用方法

研究者可通过HuggingFace平台直接加载不同配置满足多元需求：default配置适用于基础文本分析，pretrain配置适配预训练任务，sft配置支持带附件的政务文档结构化处理，sft-map-reduce则针对分布式计算场景优化。使用load_dataset方法指定对应config_name即可获取经标准化的数据迭代器，各字段均定义明确的数据类型，文本长度等衍生指标已预计算完成，可直接用于统计分析或模型输入。

背景与挑战

背景概述

政府文档语料库（government-doc-corpus）作为自然语言处理领域的重要资源，由研究机构在近年构建完成，旨在为政府文档的智能处理与分析提供数据支持。该数据集收录了丰富的政府公文文本，涵盖多种文档类型和格式，为政策分析、文本摘要、信息抽取等任务奠定了数据基础。其构建体现了政府部门与学术界的深度合作，通过结构化存储文档内容与元数据，显著提升了政务文本的机器学习适用性。

当前挑战

政府文档语料库面临的核心挑战体现在两个维度：在领域问题层面，政务文本特有的正式用语、复杂句式和法律术语对自然语言理解模型提出了更高要求；文档结构的异构性也增加了信息标准化提取的难度。在构建过程中，数据清洗面临敏感信息脱敏与格式统一的平衡难题，多源文档的元数据标注需要专业领域知识支撑，而长文本的分块处理策略直接影响下游任务的模型性能。

常用场景

经典使用场景

在自然语言处理领域，government-doc-corpus数据集为研究者提供了丰富的政府文档文本资源。该数据集常用于训练和评估文本分类、信息抽取和文本摘要等任务，特别是在处理正式、结构化政府文档时表现出色。其多配置设计支持从预训练到监督微调的全流程实验，为学术界研究政府文档处理提供了标准化基准。

解决学术问题

该数据集有效解决了政府文档自动化处理中的关键学术问题。针对政府文档特有的格式规范性和术语专业性，数据集提供了大量真实样本，支持文档结构理解、关键信息提取等研究。其标注体系解决了长文档分块处理的难题，为跨页文档的连贯性分析提供了实验基础，推动了政务文本智能处理技术的发展。

衍生相关工作

围绕该数据集已产生系列重要研究成果。有学者利用其多配置特性开发了基于Map-Reduce的分布式文档处理框架，另有工作探索了跨文档关联分析算法。这些研究不仅完善了政府文档处理的技术体系，更为其他领域的长文本处理提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集