five

jgov_v1.4_full_ann

收藏
Hugging Face2025-12-07 更新2025-12-08 收录
下载链接:
https://huggingface.co/datasets/Silviase/jgov_v1.4_full_ann
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个部分:1) Silviase/jgov:将日本政府(e-Gov)开放数据门户中的政策评估PDF转换为页面图像的数据集,包含图像和PDF嵌入文本(有时可能为空);2) Silviase/jgov_v1.4_full_ann:在前者基础上使用PaddleOCR-VL添加Markdown格式OCR文本的增强数据集。数据集专门针对包含表格和表单的日文PDF文档的布局识别和OCR评估需求设计。原始PDF来自e-Gov开放数据门户(CC-BY-4.0许可),派生数据(渲染图像和OCR文本)也遵循相同许可。数据集包含约896,725个页面,采用200 DPI RGB图像格式,使用MuPDF渲染和pdfplumber提取文本。
创建时间:
2025-12-01
原始信息汇总

数据集概述

数据集名称

  • Silviase/jgov_v1.4_full_ann

数据集概要

  • 本数据集基于日本电子政务开放数据门户(e-Gov Open Data Portal)的政策评估PDF文件生成,包含页面图像及通过PaddleOCR-VL模型识别的Markdown格式OCR文本。
  • 主要面向包含表单和表格的日语PDF的版面识别与OCR评估用途。

数据来源与许可

  • 原始数据来源:e-Gov Open Data Portal (https://data.e-gov.go.jp/)
  • 原始数据使用条款:https://data.e-gov.go.jp/info/terms
  • 许可证
    • 原始PDF文件遵循CC-BY-4.0许可(需注明出处)。
    • 本数据集衍生物(渲染图像、OCR文本)继承CC-BY-4.0许可,并保留出处信息。
    • 使用的PaddleOCR-VL工具遵循Apache-2.0许可(https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/LICENSE),但其生成的OCR产物在CC-BY-4.0许可范围内可再分发。

数据内容与结构

  • 数据集列(Columns)
    • fname:文件名。
    • image:页面图像(datasets.Image格式)。
    • ocr_text_paddleocrvl:PaddleOCR-VL识别的Markdown格式文本。
    • source:固定为"jgov"。
    • conversations:列表格式,其中assistant字段包含OCR输出文本。
  • 数据规模:共896,725个页面(已排除1个损坏页面)。
  • 基础数据集(Silviase/jgov)内容
    • image:页面图像(datasets.Image格式),200 DPI,RGB色彩,使用MuPDF渲染。
    • text:PDF内嵌文本(可能为空)。
    • source:原始PDF文件路径。
    • page:页码(从1开始)。

数据生成流程

  1. 基础数据集(Silviase/jgov)生成
    • 通过e-Gov CKAN API收集PDF文件URL并下载。
    • 使用MuPDF(pymupdf)以200 DPI、RGB格式将PDF页面渲染为图像。
    • 使用pdfplumber提取PDF内嵌文本层(非OCR,可能为空)。
  2. OCR标注数据集(Silviase/jgov_v1.4_full_ann)生成
    • 输入:Silviase/jgov数据集中的图像序列。
    • OCR处理:使用PaddleOCR-VL模型进行Markdown格式的OCR识别。
    • 后处理:仅从Markdown输出中移除内联style属性(保留HTML标签)。
    • 排除1个损坏的图像页面后,将结果写入JSONL文件并推送至Hugging Face Hub。

数据质量与注意事项

  • Silviase/jgov:文本内容依赖PDF内嵌文本,可能存在为空或乱码的情况。
  • Silviase/jgov_v1.4_full_ann:OCR文本为PaddleOCR-VL模型的原始输出(仅移除style属性)。表格或版面的识别错误取决于模型性能。

使用方法

  • 加载基础数据集:datasets.load_dataset("Silviase/jgov", split="train")
  • 加载OCR标注数据集:datasets.load_dataset("Silviase/jgov_v1.4_full_ann", split="train")
    • 访问图像:example["image"] 返回 PIL.Image 对象。
    • 访问OCR文本:example["ocr_text_paddleocrvl"]example["conversations"][0]["assistant"] 返回Markdown格式文本。

引用信息

  • 数据集Silviase/jgov_v1.4_full_ann (Hugging Face Datasets)
  • 数据来源:e-Gov Open Data Portal (遵循CC-BY-4.0许可,需注明出处)
搜集汇总
数据集介绍
main_image_url
构建方式
在数字政府信息公开的背景下,jgov_v1.4_full_ann数据集通过系统化流程构建而成。其基础数据源自日本e-Gov开放数据门户的政策评估PDF文档,利用CKAN API自动采集PDF资源,并通过MuPDF工具以200 DPI分辨率将PDF页面渲染为RGB图像。随后,采用PaddleOCR-VL模型对图像进行Markdown格式的OCR文本识别,生成包含布局信息的结构化文本。构建过程中,通过哈希命名确保文件唯一性,并移除了OCR输出中的内联样式属性以提升数据纯净度,最终形成包含近90万页图像与对应文本的大规模语料库。
特点
该数据集在政府文档数字化处理领域展现出显著特色。其核心在于融合了高分辨率页面图像与经过OCR处理的Markdown格式文本,完整保留了原始PDF中的表格、图表等复杂版面元素。数据规模庞大,涵盖896,725个页面,为训练和评估布局识别模型提供了丰富样本。文本内容以对话形式组织,便于直接应用于基于指令的视觉语言任务。同时,数据集严格遵循CC-BY-4.0许可协议,确保了学术与商业使用的合规性,为日语文档处理研究建立了可靠基准。
使用方法
针对文档分析与多模态学习任务,该数据集提供了便捷的调用接口。研究人员可通过HuggingFace Datasets库直接加载数据集,使用标准代码即可访问图像与文本字段。图像数据以PIL格式呈现,支持直接进行视觉特征提取;OCR文本则以Markdown形式存储,完整保留了文档的结构化信息。数据集的对话格式使其能够无缝集成到指令微调流程中,为开发文档理解、信息抽取等应用提供了即用型训练资源,显著降低了多模态模型研究的预处理成本。
背景与挑战
背景概述
随着数字化政务的深入推进,电子政府开放数据成为自然语言处理与文档分析领域的重要资源。jgov_v1.4_full_ann数据集由日本e-Gov开放数据门户的政策评估PDF转化而来,其构建工作主要由研究人员Silviase等人完成,旨在为日语文档的布局识别与光学字符识别技术提供大规模、高质量的评估基准。该数据集的核心研究问题聚焦于复杂版式文档的自动化解析,特别是针对含有表格、表单等非结构化元素的日语PDF,通过结合PaddleOCR-VL模型生成Markdown格式的OCR文本,推动了多模态文档理解技术的发展,并对政务文档智能化处理及相关OCR模型的性能优化产生了显著影响。
当前挑战
在文档智能领域,处理具有复杂布局的日语PDF面临诸多挑战,例如表格、多栏排版及混合文字内容的精确分割与识别。jgov_v1.4_full_ann数据集旨在应对这些挑战,为布局分析与OCR任务提供基准数据。在构建过程中,数据集遭遇了原始PDF嵌入文本缺失或乱码的问题,这影响了初始文本层的可靠性;同时,大规模图像渲染与OCR处理需高效计算资源,并需确保PaddleOCR-VL模型输出在保持Markdown结构的同时,去除冗余样式属性以提升数据一致性。此外,处理近九十万页文档时,还需解决图像损坏排除与数据格式标准化等工程难题。
常用场景
经典使用场景
在文档分析与光学字符识别领域,jgov_v1.4_full_ann数据集为处理复杂版式的日语PDF提供了标准化的评估基准。该数据集通过将日本政府公开的政策评估PDF转换为高分辨率页面图像,并集成PaddleOCR-VL生成的Markdown格式OCR文本,专门用于测试和优化布局识别算法在表格、表单等非结构化文档中的性能。研究人员可借助其丰富的图像-文本对,系统评估模型在真实政务文档场景下的准确性与鲁棒性。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,主要集中在文档布局识别模型优化与多模态预训练领域。例如,基于其图像-文本对训练的模型被用于改进日语OCR在复杂表格中的表现,相关成果发表于国际文档分析会议。同时,该数据集常作为基准数据,用于评估如LayoutLM、PaddleOCR等框架在跨语言场景下的适应性,促进了开源文档处理工具链在日语环境中的迭代与完善。
数据集最近研究
最新研究方向
在文档智能与多模态信息处理领域,jgov_v1.4_full_ann数据集凭借其大规模日本政府政策评估PDF的页面图像与PaddleOCR-VL生成的Markdown格式OCR文本,正推动着复杂版面分析与跨模态理解的前沿探索。该数据集聚焦于包含表格和表单的日语文档,为布局识别、光学字符识别(OCR)的精度评估提供了关键基准,尤其促进了视觉语言模型在结构化文档解析中的性能优化。随着数字政府与开放数据运动的深化,此类高质量标注资源成为研究热点,支撑着自动化政策分析、多语言文档检索等实际应用,对提升公共服务效率与透明度具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作