SciPostLayout
收藏arXiv2024-07-29 更新2024-07-31 收录
下载链接:
https://huggingface.co/datasets/omron-sinicx/scipostlayout_v2
下载链接
链接失效反馈官方服务:
资源简介:
SciPostLayout数据集由OMRON SINIC X Corporation和早稻田大学共同创建,包含7,855个科学海报及其详细的手动布局注释,旨在支持布局分析和生成研究。数据集内容丰富,涵盖多种字体、大小和位置的元素,如表格和图表,适用于评估布局分析和生成系统。数据集的创建过程包括从F1000Research下载PDF格式的海报,转换为PNG格式并进行手动注释。SciPostLayout数据集主要应用于科学海报的自动生成和布局优化,旨在减轻作者的工作负担并提高读者对论文内容的理解。
The SciPostLayout dataset was co-created by OMRON SINIC X Corporation and Waseda University. It contains 7,855 scientific posters accompanied by detailed manual layout annotations, with the aim of supporting research on layout analysis and generation. The dataset has rich content, covering elements such as tables and figures with various fonts, sizes and placement positions, making it applicable for evaluating layout analysis and generation systems. The dataset was developed by downloading scientific posters in PDF format from F1000Research, converting them to PNG format, and conducting manual annotations. The SciPostLayout dataset is mainly used for automatic generation and layout optimization of scientific posters, with the objective of reducing the workload of authors and improving readers' understanding of the content of academic papers.
提供机构:
OMRON SINIC X Corporation 和 早稻田大学
创建时间:
2024-07-29
原始信息汇总
数据集概述
数据集名称
SciPostLayout
数据集描述
SciPostLayout 是一个用于科学海报布局分析和生成研究的数据集。该数据集包含以下内容:
- 训练集:6,855 张海报图像
- 开发集/测试集:各 500 张海报图像
- 开发集/测试集:100 篇论文与 100 张海报配对
文件结构
scipostlayoutposterpngtrain.zip:包含 6,855 张训练集海报图像dev:包含 500 张开发集海报图像test:包含 500 张测试集海报图像train.json:训练集的标注数据dev.json:开发集的标注数据test.json:测试集的标注数据load_dataset.py:加载数据集的示例脚本
pdf:海报PDF文件(可选)
paperpdf:论文PDF文件jpg:论文JPG文件mmd:使用Nougat解析的论文MMD文件
数据集大小
- 1K<n<10K
语言
- 英语
许可证
- CC BY 4.0
搜集汇总
数据集介绍

构建方式
SciPostLayout数据集的构建过程首先从F1000Research网站下载了7,943份科学海报,并筛选出7,855份遵循CC-BY许可协议的海报。这些海报随后被转换为PNG格式,并招募专业数据标注员进行手动标注,将PubLayNet的五个类别标注标准扩展为九个类别,以获取更精细的布局标注。此外,还手动搜索了与海报配对的100篇科学论文,并将这些论文与海报分为训练集和测试集。最终,SciPostLayout数据集包含了7,855份科学海报和手动布局标注,以及50篇论文和配对的50份海报,用于评估布局分析模型和布局生成模型。
特点
SciPostLayout数据集的特点在于其包含了7,855份科学海报和手动布局标注,以及100篇科学论文和配对的50份海报。所有海报和论文都遵循CC-BY许可协议,可供商业研究使用。此外,SciPostLayout数据集是第一个用于评估布局分析和布局生成系统的科学海报布局数据集,也是第一个包含科学论文和海报配对数据的数据集,可用于评估科学海报生成系统。
使用方法
SciPostLayout数据集的使用方法主要包括布局分析和布局生成。布局分析任务旨在检测非结构化文档的布局,通过预测边框和类别(如图表或表格)来实现。布局生成任务旨在根据用户提供的约束生成布局。SciPostLayout数据集可用于评估现有模型的布局分析和布局生成性能,并为进一步研究科学海报生成系统提供基准。
背景与挑战
背景概述
科学海报作为科学论文贡献的有效图形展示方式,在学术交流中扮演着重要角色。然而,设计一个既美观又能高效总结论文核心内容的海报,往往既耗时又费力。为了减轻作者的负担并帮助读者更直观地理解论文概述,本研究构建了SciPostLayout数据集,包含7,855个科学海报及其手动布局注释,用于布局分析和生成。SciPostLayout还包含了100篇与海报配对的科学论文,所有数据和论文均在CC-BY许可下公开可用。该数据集的创建旨在填补科学海报布局分析和生成领域缺乏公开数据集的空白,并为评估和开发相关的计算机视觉模型提供基准。
当前挑战
SciPostLayout数据集面临的挑战主要包括:1) 布局分析任务的挑战,由于海报中元素如图表的位置多样,布局分析相较于科学论文更为复杂;2) 布局生成任务的挑战,尽管现有模型能够生成对齐良好的布局,但要生成与真实布局相似度高的布局仍然是一个难题。此外,从科学论文生成海报布局的任务也面临着挑战,尽管基于LLM的模型显示出一定的潜力,但生成与真实布局相似的布局仍然是一个有待解决的问题。
常用场景
经典使用场景
SciPostLayout数据集主要用于科学海报的布局分析和布局生成任务。通过这一数据集,研究人员可以训练和评估布局分析模型,以便自动识别海报中的元素(如标题、作者信息、表格、图形等)及其位置。同时,布局生成模型可以利用SciPostLayout进行训练,以自动从科学论文中生成具有吸引力和信息性的海报布局。此外,SciPostLayout数据集还包含了与海报配对的科学论文,这为从论文中自动生成海报布局提供了可能。
衍生相关工作
SciPostLayout数据集的发布促进了科学海报布局分析和生成领域的研究。基于SciPostLayout数据集,研究人员可以探索更先进的布局分析模型,以提高对科学海报中元素的识别精度和位置预测的准确性。同时,SciPostLayout数据集还可以用于开发更智能的布局生成模型,以自动从科学论文中生成具有吸引力和信息性的海报布局。此外,SciPostLayout数据集还可以用于研究如何更好地利用大型语言模型(LLM)生成科学海报布局。
数据集最近研究
最新研究方向
SciPostLayout数据集的最新研究方向集中在科学海报的布局分析和生成上,旨在通过机器学习模型自动创建高效且视觉上吸引人的海报。该数据集的构建是为了填补科学海报布局领域缺乏公共数据集的空白,为研究人员提供了一个宝贵的资源。SciPostLayout数据集包含了7855个科学海报和手动布局注释,以及100篇与之对应的科学论文,所有内容均在CC-BY许可下公开可用。研究已经表明,使用现有计算机视觉模型进行海报的布局分析和生成比使用科学论文的数据集更具挑战性。此外,研究还探索了大型语言模型(LLM)在从科学论文生成海报布局方面的潜力。这一研究方向对于减轻科研人员的负担,并帮助读者更直观地理解论文的要点具有重要意义。
相关研究论文
- 1SciPostLayout: A Dataset for Layout Analysis and Layout Generation of Scientific PostersOMRON SINIC X Corporation 和 早稻田大学 · 2024年
以上内容由遇见数据集搜集并总结生成



