jgov_v1.4_full_ann

Hugging Face2025-12-07 更新2025-12-08 收录

下载链接：

https://huggingface.co/datasets/Silviase/jgov_v1.4_full_ann

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个部分：1) Silviase/jgov：将日本政府(e-Gov)开放数据门户中的政策评估PDF转换为页面图像的数据集，包含图像和PDF嵌入文本（有时可能为空）；2) Silviase/jgov_v1.4_full_ann：在前者基础上使用PaddleOCR-VL添加Markdown格式OCR文本的增强数据集。数据集专门针对包含表格和表单的日文PDF文档的布局识别和OCR评估需求设计。原始PDF来自e-Gov开放数据门户(CC-BY-4.0许可)，派生数据(渲染图像和OCR文本)也遵循相同许可。数据集包含约896,725个页面，采用200 DPI RGB图像格式，使用MuPDF渲染和pdfplumber提取文本。

创建时间：

2025-12-01

原始信息汇总

数据集概述

数据集名称

Silviase/jgov_v1.4_full_ann

数据集概要

本数据集基于日本电子政务开放数据门户（e-Gov Open Data Portal）的政策评估PDF文件生成，包含页面图像及通过PaddleOCR-VL模型识别的Markdown格式OCR文本。
主要面向包含表单和表格的日语PDF的版面识别与OCR评估用途。

数据来源与许可

原始数据来源：e-Gov Open Data Portal (https://data.e-gov.go.jp/)
原始数据使用条款：https://data.e-gov.go.jp/info/terms
许可证：
- 原始PDF文件遵循CC-BY-4.0许可（需注明出处）。
- 本数据集衍生物（渲染图像、OCR文本）继承CC-BY-4.0许可，并保留出处信息。
- 使用的PaddleOCR-VL工具遵循Apache-2.0许可（https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/LICENSE），但其生成的OCR产物在CC-BY-4.0许可范围内可再分发。

数据内容与结构

数据集列（Columns）：
- fname：文件名。
- image：页面图像（datasets.Image格式）。
- ocr_text_paddleocrvl：PaddleOCR-VL识别的Markdown格式文本。
- source：固定为"jgov"。
- conversations：列表格式，其中assistant字段包含OCR输出文本。
数据规模：共896,725个页面（已排除1个损坏页面）。
基础数据集（Silviase/jgov）内容：
- image：页面图像（datasets.Image格式），200 DPI，RGB色彩，使用MuPDF渲染。
- text：PDF内嵌文本（可能为空）。
- source：原始PDF文件路径。
- page：页码（从1开始）。

数据生成流程

基础数据集（Silviase/jgov）生成：
- 通过e-Gov CKAN API收集PDF文件URL并下载。
- 使用MuPDF（pymupdf）以200 DPI、RGB格式将PDF页面渲染为图像。
- 使用pdfplumber提取PDF内嵌文本层（非OCR，可能为空）。
OCR标注数据集（Silviase/jgov_v1.4_full_ann）生成：
- 输入：Silviase/jgov数据集中的图像序列。
- OCR处理：使用PaddleOCR-VL模型进行Markdown格式的OCR识别。
- 后处理：仅从Markdown输出中移除内联style属性（保留HTML标签）。
- 排除1个损坏的图像页面后，将结果写入JSONL文件并推送至Hugging Face Hub。

数据质量与注意事项

Silviase/jgov：文本内容依赖PDF内嵌文本，可能存在为空或乱码的情况。
Silviase/jgov_v1.4_full_ann：OCR文本为PaddleOCR-VL模型的原始输出（仅移除style属性）。表格或版面的识别错误取决于模型性能。

使用方法

加载基础数据集：datasets.load_dataset("Silviase/jgov", split="train")
加载OCR标注数据集：datasets.load_dataset("Silviase/jgov_v1.4_full_ann", split="train")
- 访问图像：example["image"] 返回 PIL.Image 对象。
- 访问OCR文本：example["ocr_text_paddleocrvl"] 或 example["conversations"][0]["assistant"] 返回Markdown格式文本。

引用信息

数据集：Silviase/jgov_v1.4_full_ann (Hugging Face Datasets)
数据来源：e-Gov Open Data Portal (遵循CC-BY-4.0许可，需注明出处)

搜集汇总

数据集介绍

构建方式

在数字政府信息公开的背景下，jgov_v1.4_full_ann数据集通过系统化流程构建而成。其基础数据源自日本e-Gov开放数据门户的政策评估PDF文档，利用CKAN API自动采集PDF资源，并通过MuPDF工具以200 DPI分辨率将PDF页面渲染为RGB图像。随后，采用PaddleOCR-VL模型对图像进行Markdown格式的OCR文本识别，生成包含布局信息的结构化文本。构建过程中，通过哈希命名确保文件唯一性，并移除了OCR输出中的内联样式属性以提升数据纯净度，最终形成包含近90万页图像与对应文本的大规模语料库。

特点

该数据集在政府文档数字化处理领域展现出显著特色。其核心在于融合了高分辨率页面图像与经过OCR处理的Markdown格式文本，完整保留了原始PDF中的表格、图表等复杂版面元素。数据规模庞大，涵盖896,725个页面，为训练和评估布局识别模型提供了丰富样本。文本内容以对话形式组织，便于直接应用于基于指令的视觉语言任务。同时，数据集严格遵循CC-BY-4.0许可协议，确保了学术与商业使用的合规性，为日语文档处理研究建立了可靠基准。

使用方法

针对文档分析与多模态学习任务，该数据集提供了便捷的调用接口。研究人员可通过HuggingFace Datasets库直接加载数据集，使用标准代码即可访问图像与文本字段。图像数据以PIL格式呈现，支持直接进行视觉特征提取；OCR文本则以Markdown形式存储，完整保留了文档的结构化信息。数据集的对话格式使其能够无缝集成到指令微调流程中，为开发文档理解、信息抽取等应用提供了即用型训练资源，显著降低了多模态模型研究的预处理成本。

背景与挑战

背景概述

随着数字化政务的深入推进，电子政府开放数据成为自然语言处理与文档分析领域的重要资源。jgov_v1.4_full_ann数据集由日本e-Gov开放数据门户的政策评估PDF转化而来，其构建工作主要由研究人员Silviase等人完成，旨在为日语文档的布局识别与光学字符识别技术提供大规模、高质量的评估基准。该数据集的核心研究问题聚焦于复杂版式文档的自动化解析，特别是针对含有表格、表单等非结构化元素的日语PDF，通过结合PaddleOCR-VL模型生成Markdown格式的OCR文本，推动了多模态文档理解技术的发展，并对政务文档智能化处理及相关OCR模型的性能优化产生了显著影响。

当前挑战

在文档智能领域，处理具有复杂布局的日语PDF面临诸多挑战，例如表格、多栏排版及混合文字内容的精确分割与识别。jgov_v1.4_full_ann数据集旨在应对这些挑战，为布局分析与OCR任务提供基准数据。在构建过程中，数据集遭遇了原始PDF嵌入文本缺失或乱码的问题，这影响了初始文本层的可靠性；同时，大规模图像渲染与OCR处理需高效计算资源，并需确保PaddleOCR-VL模型输出在保持Markdown结构的同时，去除冗余样式属性以提升数据一致性。此外，处理近九十万页文档时，还需解决图像损坏排除与数据格式标准化等工程难题。

常用场景

经典使用场景

在文档分析与光学字符识别领域，jgov_v1.4_full_ann数据集为处理复杂版式的日语PDF提供了标准化的评估基准。该数据集通过将日本政府公开的政策评估PDF转换为高分辨率页面图像，并集成PaddleOCR-VL生成的Markdown格式OCR文本，专门用于测试和优化布局识别算法在表格、表单等非结构化文档中的性能。研究人员可借助其丰富的图像-文本对，系统评估模型在真实政务文档场景下的准确性与鲁棒性。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作，主要集中在文档布局识别模型优化与多模态预训练领域。例如，基于其图像-文本对训练的模型被用于改进日语OCR在复杂表格中的表现，相关成果发表于国际文档分析会议。同时，该数据集常作为基准数据，用于评估如LayoutLM、PaddleOCR等框架在跨语言场景下的适应性，促进了开源文档处理工具链在日语环境中的迭代与完善。

数据集最近研究