five

Doraemon-AI/pdf-layout-chinese

收藏
Hugging Face2024-04-18 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Doraemon-AI/pdf-layout-chinese
下载链接
链接失效反馈
官方服务:
资源简介:
pdf-layout-chinese是一个中文文档版面分析数据集,专注于中文文献类(如论文)场景。数据集包含10个标签:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。数据集包含5000张训练集和1000张验证集,每张图片对应一个同名的JSON格式标注文件。标注工具使用labelme,支持多边形标注。

pdf-layout-chinese是一个中文文档版面分析数据集,专注于中文文献类(如论文)场景。数据集包含10个标签:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。数据集包含5000张训练集和1000张验证集,每张图片对应一个同名的JSON格式标注文件。标注工具使用labelme,支持多边形标注。
提供机构:
Doraemon-AI
原始信息汇总

pdf-layout-chinese数据集概述

数据集基本信息

  • 名称: pdf-layout-chinese
  • 许可证: afl-3.0
  • 任务类别: 特征提取
  • 语言: 英语、中文
  • 大小类别: 100M<n<1B

数据集内容

  • 描述: pdf-layout-chinese是一个面向中文文献类(论文)场景的中文文档版面分析数据集。
  • 标签: 包含10个标签,分别是正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释、公式。
  • 数据集划分: 包含5000张训练集和1000张验证集,分别存储在train和val目录下。
  • 标注文件: 每张图片对应一个同名的标注文件(.json),使用labelme标注工具进行标注。

标注格式

  • 标注工具: labelme
  • 标注格式: 与labelme格式一致,包含以下关键字段:
    • "shapes": 包含多个标注实例的列表。
    • "labels": 类别标签。
    • "points": 实例标注的坐标点,形式为Polygon。
    • "shape_type": "polygon"
    • "imagePath": 图片路径/名
    • "imageHeight": 图片高度
    • "imageWidth": 图片宽度

数据集转换

  • 转换工具: labelme2coco.py
  • 转换命令:
    • 训练集转换: python3 labelme2coco.py train train_save_path --labels labels.txt
    • 验证集转换: python3 labelme2coco.py val val_save_path --labels labels.txt
  • 转换结果存储位置: 保存在train_save_path/val_save_path目录下。
搜集汇总
数据集介绍
main_image_url
构建方式
pdf-layout-chinese数据集的构建聚焦于中文文献类文档的版面分析,涵盖了10种常见的文档元素标签,包括正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。该数据集通过使用labelme工具进行标注,生成了5000张训练集和1000张验证集的图片及其对应的JSON格式标注文件。每张图片的标注信息详细记录了各元素的形状、位置及类别,确保了数据的高质量与准确性。
使用方法
使用pdf-layout-chinese数据集时,用户可以直接加载train和val目录下的图片及对应的JSON标注文件进行模型训练与评估。为了方便不同格式的需求,数据集还提供了将labelme格式转换为coco格式的脚本,用户可以通过执行提供的命令快速完成格式转换。此外,数据集的标注信息详尽,适合用于开发和测试文档版面分析的相关算法和模型。
背景与挑战
背景概述
pdf-layout-chinese数据集是由Doraemon-AI团队创建的中文文档版面分析数据集,专注于中文文献类(如论文)的版面结构分析。该数据集包含5000张训练图片和1000张验证图片,涵盖10种不同的文档元素标签,如正文、标题、图片、表格等。通过提供详细的标注信息,该数据集旨在推动中文文档自动化处理技术的发展,特别是在文档结构识别和内容提取领域。
当前挑战
pdf-layout-chinese数据集面临的主要挑战包括:首先,文档版面结构的复杂性,不同文档的布局和元素排列方式多样,增加了标注和模型训练的难度。其次,中文文档特有的排版风格和字体使用,要求模型具备高度的语言和文化适应性。此外,数据集的构建过程中,如何确保标注的准确性和一致性也是一个重要挑战,特别是在处理多边形标注时,坐标的精确度直接影响模型的学习效果。
常用场景
经典使用场景
pdf-layout-chinese数据集在中文文献版面分析领域具有广泛的应用,尤其适用于自动化文档解析与信息提取任务。该数据集通过提供丰富的标注信息,帮助研究人员和开发者训练模型以识别和分类文档中的不同元素,如标题、正文、图片、表格等。这种精细的版面分析能力使得该数据集在学术论文、技术报告等复杂文档的自动化处理中表现尤为突出。
解决学术问题
pdf-layout-chinese数据集解决了中文文档自动化处理中的关键问题,特别是在复杂文档的版面分析和信息提取方面。传统的文档处理方法往往依赖于人工标注,效率低下且成本高昂。该数据集通过提供大规模的标注数据,使得机器学习模型能够更准确地识别文档中的各类元素,从而推动了自动化文档处理技术的发展,为学术研究和工业应用提供了强有力的支持。
实际应用
在实际应用中,pdf-layout-chinese数据集被广泛应用于文档自动化处理系统,如学术论文的自动摘要生成、技术报告的结构化信息提取等。此外,该数据集还可用于构建智能文档阅读器,帮助用户快速定位和理解文档中的关键信息。在法律、金融、医疗等多个行业中,该数据集的应用显著提高了文档处理的效率和准确性,减少了人工干预的需求。
数据集最近研究
最新研究方向
在文档分析与版面理解领域,pdf-layout-chinese数据集的最新研究方向主要集中在提升中文文献类文档的自动化处理能力。随着人工智能技术的快速发展,研究人员致力于开发更高效的算法,以精准识别和分类文档中的各类元素,如标题、表格、图片等。这一研究方向不仅推动了文档自动化处理技术的进步,还为学术文献的数字化管理提供了新的解决方案。此外,该数据集的应用还扩展至法律、金融等领域的文档分析,进一步凸显了其在跨领域应用中的重要性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作