Doraemon-AI/pdf-layout-chinese

Name: Doraemon-AI/pdf-layout-chinese
Creator: Doraemon-AI
Published: 2024-04-18 09:09:16
License: 暂无描述

Hugging Face2024-04-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Doraemon-AI/pdf-layout-chinese

下载链接

链接失效反馈

官方服务：

资源简介：

pdf-layout-chinese是一个中文文档版面分析数据集，专注于中文文献类（如论文）场景。数据集包含10个标签：正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。数据集包含5000张训练集和1000张验证集，每张图片对应一个同名的JSON格式标注文件。标注工具使用labelme，支持多边形标注。

提供机构：

Doraemon-AI

原始信息汇总

pdf-layout-chinese数据集概述

数据集基本信息

名称: pdf-layout-chinese
许可证: afl-3.0
任务类别: 特征提取
语言: 英语、中文
大小类别: 100M<n<1B

数据集内容

描述: pdf-layout-chinese是一个面向中文文献类（论文）场景的中文文档版面分析数据集。
标签: 包含10个标签，分别是正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释、公式。
数据集划分: 包含5000张训练集和1000张验证集，分别存储在train和val目录下。
标注文件: 每张图片对应一个同名的标注文件(.json)，使用labelme标注工具进行标注。

标注格式

标注工具: labelme
标注格式: 与labelme格式一致，包含以下关键字段：
- "shapes": 包含多个标注实例的列表。
- "labels": 类别标签。
- "points": 实例标注的坐标点，形式为Polygon。
- "shape_type": "polygon"
- "imagePath": 图片路径/名
- "imageHeight": 图片高度
- "imageWidth": 图片宽度

数据集转换

转换工具: labelme2coco.py
转换命令:
- 训练集转换: python3 labelme2coco.py train train_save_path --labels labels.txt
- 验证集转换: python3 labelme2coco.py val val_save_path --labels labels.txt
转换结果存储位置: 保存在train_save_path/val_save_path目录下。

搜集汇总

数据集介绍

构建方式

pdf-layout-chinese数据集的构建聚焦于中文文献类文档的版面分析，涵盖了10种常见的文档元素标签，包括正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。该数据集通过使用labelme工具进行标注，生成了5000张训练集和1000张验证集的图片及其对应的JSON格式标注文件。每张图片的标注信息详细记录了各元素的形状、位置及类别，确保了数据的高质量与准确性。

使用方法

使用pdf-layout-chinese数据集时，用户可以直接加载train和val目录下的图片及对应的JSON标注文件进行模型训练与评估。为了方便不同格式的需求，数据集还提供了将labelme格式转换为coco格式的脚本，用户可以通过执行提供的命令快速完成格式转换。此外，数据集的标注信息详尽，适合用于开发和测试文档版面分析的相关算法和模型。

背景与挑战

背景概述

pdf-layout-chinese数据集是由Doraemon-AI团队创建的中文文档版面分析数据集，专注于中文文献类（如论文）的版面结构分析。该数据集包含5000张训练图片和1000张验证图片，涵盖10种不同的文档元素标签，如正文、标题、图片、表格等。通过提供详细的标注信息，该数据集旨在推动中文文档自动化处理技术的发展，特别是在文档结构识别和内容提取领域。

当前挑战

pdf-layout-chinese数据集面临的主要挑战包括：首先，文档版面结构的复杂性，不同文档的布局和元素排列方式多样，增加了标注和模型训练的难度。其次，中文文档特有的排版风格和字体使用，要求模型具备高度的语言和文化适应性。此外，数据集的构建过程中，如何确保标注的准确性和一致性也是一个重要挑战，特别是在处理多边形标注时，坐标的精确度直接影响模型的学习效果。

常用场景

经典使用场景

pdf-layout-chinese数据集在中文文献版面分析领域具有广泛的应用，尤其适用于自动化文档解析与信息提取任务。该数据集通过提供丰富的标注信息，帮助研究人员和开发者训练模型以识别和分类文档中的不同元素，如标题、正文、图片、表格等。这种精细的版面分析能力使得该数据集在学术论文、技术报告等复杂文档的自动化处理中表现尤为突出。

解决学术问题

pdf-layout-chinese数据集解决了中文文档自动化处理中的关键问题，特别是在复杂文档的版面分析和信息提取方面。传统的文档处理方法往往依赖于人工标注，效率低下且成本高昂。该数据集通过提供大规模的标注数据，使得机器学习模型能够更准确地识别文档中的各类元素，从而推动了自动化文档处理技术的发展，为学术研究和工业应用提供了强有力的支持。

实际应用

在实际应用中，pdf-layout-chinese数据集被广泛应用于文档自动化处理系统，如学术论文的自动摘要生成、技术报告的结构化信息提取等。此外，该数据集还可用于构建智能文档阅读器，帮助用户快速定位和理解文档中的关键信息。在法律、金融、医疗等多个行业中，该数据集的应用显著提高了文档处理的效率和准确性，减少了人工干预的需求。

数据集最近研究