five

government-doc-corpus

收藏
Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/jun-2018/government-doc-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含四个配置版本,分别为default、pretrain、sft和sft-map-reduce。default和pretrain配置包含文本id、页面编号、文本内容和文本长度等信息。sft配置则包含了文本前后缀信息、文档类型、文档文件名、文档文本和长度等。sft-map-reduce配置则专注于步骤输入和输出信息。每个配置都提供了一个训练集。
创建时间:
2025-05-04
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 数据集地址: https://huggingface.co/datasets/jun-2018/government-doc-corpus

配置详情

1. default 配置

  • 特征:
    • id: string
    • page: int64
    • text: string
    • len: int64
  • 数据分割:
    • train: 2209 个样本,8477457 字节
  • 下载大小: 3599645 字节
  • 数据集大小: 8477457 字节

2. pretrain 配置

  • 特征:
    • id: string
    • page: int64
    • text: string
    • len: int64
  • 数据分割:
    • train: 2209 个样本,8477457 字节
  • 下载大小: 3599645 字节
  • 数据集大小: 8477457 字节

3. sft 配置

  • 特征:
    • affix_id: string
    • affix_text: string
    • affix_len: int64
    • doc_type: string
    • doc_file_name: string
    • doc_text: string
    • doc_len: int64
    • doc_affix_ids: sequence of string
  • 数据分割:
    • train: 559 个样本,7899149 字节
  • 下载大小: 3544153 字节
  • 数据集大小: 7899149 字节

4. sft-map-reduce 配置

  • 特征:
    • affix_id: string
    • step: string
    • inputs: sequence of string
    • output: string
  • 数据分割:
    • train: 3237 个样本,9455240 字节
  • 下载大小: 4152036 字节
  • 数据集大小: 9455240 字节

数据文件路径

  • default: data/train-*
  • pretrain: pretrain/train-*
  • sft: sft/train-*
  • sft-map-reduce: sft-map-reduce/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在政务文档处理领域,government-doc-corpus数据集通过系统化采集与结构化处理构建而成。该数据集采用多配置架构,包含default、pretrain、sft和sft-map-reduce四种数据形态,每种配置均经过严格的字段定义和质量控制。原始文档经过文本提取、分页处理、长度计算等标准化流程,并针对不同应用场景进行专项优化,如sft配置特别设计了文档类型、附件关联等政务场景特有字段。
特点
该数据集最显著的特点是具备政务文档特有的多层次结构表征能力。除基础文本内容外,精确记录了页面位置、文本长度等元信息,sft配置更包含文档类型、附件关联等专业字段。数据规模达百万字节级,涵盖559至3237个不等的样本量,各配置间保持字段一致性又突出功能差异,如sft-map-reduce配置专为分布式处理设计,包含步骤标记和输入输出序列。
使用方法
研究者可通过HuggingFace平台直接加载不同配置满足多元需求:default配置适用于基础文本分析,pretrain配置适配预训练任务,sft配置支持带附件的政务文档结构化处理,sft-map-reduce则针对分布式计算场景优化。使用load_dataset方法指定对应config_name即可获取经标准化的数据迭代器,各字段均定义明确的数据类型,文本长度等衍生指标已预计算完成,可直接用于统计分析或模型输入。
背景与挑战
背景概述
政府文档语料库(government-doc-corpus)作为自然语言处理领域的重要资源,由研究机构在近年构建完成,旨在为政府文档的智能处理与分析提供数据支持。该数据集收录了丰富的政府公文文本,涵盖多种文档类型和格式,为政策分析、文本摘要、信息抽取等任务奠定了数据基础。其构建体现了政府部门与学术界的深度合作,通过结构化存储文档内容与元数据,显著提升了政务文本的机器学习适用性。
当前挑战
政府文档语料库面临的核心挑战体现在两个维度:在领域问题层面,政务文本特有的正式用语、复杂句式和法律术语对自然语言理解模型提出了更高要求;文档结构的异构性也增加了信息标准化提取的难度。在构建过程中,数据清洗面临敏感信息脱敏与格式统一的平衡难题,多源文档的元数据标注需要专业领域知识支撑,而长文本的分块处理策略直接影响下游任务的模型性能。
常用场景
经典使用场景
在自然语言处理领域,government-doc-corpus数据集为研究者提供了丰富的政府文档文本资源。该数据集常用于训练和评估文本分类、信息抽取和文本摘要等任务,特别是在处理正式、结构化政府文档时表现出色。其多配置设计支持从预训练到监督微调的全流程实验,为学术界研究政府文档处理提供了标准化基准。
解决学术问题
该数据集有效解决了政府文档自动化处理中的关键学术问题。针对政府文档特有的格式规范性和术语专业性,数据集提供了大量真实样本,支持文档结构理解、关键信息提取等研究。其标注体系解决了长文档分块处理的难题,为跨页文档的连贯性分析提供了实验基础,推动了政务文本智能处理技术的发展。
衍生相关工作
围绕该数据集已产生系列重要研究成果。有学者利用其多配置特性开发了基于Map-Reduce的分布式文档处理框架,另有工作探索了跨文档关联分析算法。这些研究不仅完善了政府文档处理的技术体系,更为其他领域的长文本处理提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作