creative-graphic-design/PubLayNet
收藏Hugging Face2024-03-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/creative-graphic-design/PubLayNet
下载链接
链接失效反馈官方服务:
资源简介:
PubLayNet是一个用于文档布局分析的数据集。它包含了研究论文和文章的图像,并对这些图像中的各种元素(如“文本”、“列表”、“图表”等)进行了标注。数据集是通过自动匹配PubMed Central上公开的超过100万篇PDF文章的XML表示和内容获得的。数据集的结构包括图像ID、文件名、宽度、高度、图像和标注等信息。数据集分为训练集、验证集和测试集,分别包含335703、11245和11405个样本。
提供机构:
creative-graphic-design
原始信息汇总
数据集概述
基本信息
- 数据集名称: PubLayNet
- 语言: 英语
- 许可证: CDLA-Permissive-1.0
- 多语言性: 单语种
- 源数据: 原始数据
- 任务类别: 图像分类、图像分割、图像到文本、问答、多选题、标记分类、表格到文本、目标检测、表格问答、文本分类、表格到文本
- 任务ID: 多标签图像分类、多类图像分类、语义分割、图像标注、抽取式问答、封闭域问答、多选题问答、命名实体识别
- 标签: 图形设计、布局生成
数据结构
- 特征:
image_id: 图像ID,类型为int32file_name: 文件名,类型为stringwidth: 图像宽度,类型为int32height: 图像高度,类型为int32image: 图像,类型为imageannotations: 标注信息,类型为序列,包含以下字段:annotation_id: 标注ID,类型为int32area: 区域面积,类型为float32bbox: 边界框,类型为float32序列,长度为4category: 类别信息,包含以下字段:category_id: 类别ID,类型为int32name: 类别名称,类型为class_label,名称包括:text, title, list, table, figuresupercategory: 超类别,类型为string
category_id: 类别ID,类型为int32image_id: 图像ID,类型为int32iscrowd: 是否为群体,类型为boolsegmentation: 分割信息,类型为image
数据分割
- 训练集:
- 样本数量: 335703
- 字节数: 99127922734.771
- 验证集:
- 样本数量: 11245
- 字节数: 3513203604.885
- 测试集:
- 样本数量: 11405
- 字节数: 3406081626.495
数据集大小
- 下载大小: 107597638930
- 数据集大小: 106047207966.15099
配置
- 默认配置:
- 数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 数据文件路径:



