five

creative-graphic-design/PubLayNet

收藏
Hugging Face2024-03-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/creative-graphic-design/PubLayNet
下载链接
链接失效反馈
官方服务:
资源简介:
PubLayNet是一个用于文档布局分析的数据集。它包含了研究论文和文章的图像,并对这些图像中的各种元素(如“文本”、“列表”、“图表”等)进行了标注。数据集是通过自动匹配PubMed Central上公开的超过100万篇PDF文章的XML表示和内容获得的。数据集的结构包括图像ID、文件名、宽度、高度、图像和标注等信息。数据集分为训练集、验证集和测试集,分别包含335703、11245和11405个样本。
提供机构:
creative-graphic-design
原始信息汇总

数据集概述

基本信息

  • 数据集名称: PubLayNet
  • 语言: 英语
  • 许可证: CDLA-Permissive-1.0
  • 多语言性: 单语种
  • 源数据: 原始数据
  • 任务类别: 图像分类、图像分割、图像到文本、问答、多选题、标记分类、表格到文本、目标检测、表格问答、文本分类、表格到文本
  • 任务ID: 多标签图像分类、多类图像分类、语义分割、图像标注、抽取式问答、封闭域问答、多选题问答、命名实体识别
  • 标签: 图形设计、布局生成

数据结构

  • 特征:
    • image_id: 图像ID,类型为int32
    • file_name: 文件名,类型为string
    • width: 图像宽度,类型为int32
    • height: 图像高度,类型为int32
    • image: 图像,类型为image
    • annotations: 标注信息,类型为序列,包含以下字段:
      • annotation_id: 标注ID,类型为int32
      • area: 区域面积,类型为float32
      • bbox: 边界框,类型为float32序列,长度为4
      • category: 类别信息,包含以下字段:
        • category_id: 类别ID,类型为int32
        • name: 类别名称,类型为class_label,名称包括:text, title, list, table, figure
        • supercategory: 超类别,类型为string
      • category_id: 类别ID,类型为int32
      • image_id: 图像ID,类型为int32
      • iscrowd: 是否为群体,类型为bool
      • segmentation: 分割信息,类型为image

数据分割

  • 训练集:
    • 样本数量: 335703
    • 字节数: 99127922734.771
  • 验证集:
    • 样本数量: 11245
    • 字节数: 3513203604.885
  • 测试集:
    • 样本数量: 11405
    • 字节数: 3406081626.495

数据集大小

  • 下载大小: 107597638930
  • 数据集大小: 106047207966.15099

配置

  • 默认配置:
    • 数据文件路径:
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作