Paper2Poster
收藏arXiv2025-05-28 更新2025-05-29 收录
下载链接:
https://github.com/Paper2Poster/Paper2Poster
下载链接
链接失效反馈官方服务:
资源简介:
Paper2Poster数据集由滑铁卢大学、新加坡国立大学、牛津大学的研究团队创建,旨在评估和推进学术海报自动生成技术。该数据集包含了100篇AI领域的会议论文及其对应的作者设计的海报,数据量丰富,涵盖了计算机视觉、自然语言处理、强化学习等多个子领域。Paper2Poster数据集的创建过程严格遵循了科学研究的规范,保证了数据的高质量和多样性。该数据集主要用于解决学术海报自动生成中的挑战,例如长文本上下文压缩、多模态输入的处理以及布局感知的多模态输出等。
The Paper2Poster dataset was developed by research teams from the University of Waterloo, National University of Singapore, and University of Oxford, with the aim of evaluating and advancing automatic academic poster generation technologies. This dataset includes 100 AI conference papers and their corresponding posters designed by the original authors, featuring abundant data volume and covering multiple subfields such as computer vision, natural language processing, and reinforcement learning. The creation of the Paper2Poster dataset strictly adheres to scientific research norms, ensuring the high quality and diversity of the dataset. This dataset is primarily employed to address key challenges in automatic academic poster generation, such as long-text context compression, multimodal input processing, and layout-aware multimodal output.
提供机构:
滑铁卢大学、新加坡国立大学、牛津大学
创建时间:
2025-05-28
原始信息汇总
Paper2Poster: Multimodal Poster Automation from Scientific Papers
数据集概述
- 名称: Paper2Poster
- 类型: 多模态海报生成与评估数据集
- 主要功能: 从科学论文自动生成海报并评估海报质量
核心组件
-
PosterAgent: 自上而下、视觉在环的多智能体系统,实现从
paper.pdf到poster.pptx的转换- 包含Parser、Planner、Painter-Commentor三个模块
-
评估体系:
- PaperQuiz: 通过问答测试海报传达论文核心内容的能力
- VLM-as-Judge: 使用视觉语言模型评估
- 统计指标: 视觉相似度、PPL等
技术特性
- 支持多种模型组合:
- GPT-4o
- Qwen-2.5-7B-Instruct
- 其他自定义模型
- 支持本地部署(vLLM)和API访问
数据集获取
bash python -m PosterAgent.create_dataset
评估方法
-
PaperQuiz评估: bash python -m Paper2Poster-eval.eval_poster_pipeline --metric=qa
-
VLM-as-Judge评估: bash python -m Paper2Poster-eval.eval_poster_pipeline --metric=judge
-
统计指标评估: bash python -m Paper2Poster-eval.eval_poster_pipeline --metric=stats
相关资源
- 论文地址: https://arxiv.org/abs/2505.21497
- 项目主页: https://paper2poster.github.io/
- Hugging Face数据集: https://huggingface.co/datasets/Paper2Poster/Paper2Poster
引用格式
bibtex @misc{pang2025paper2postermultimodalposterautomation, title={Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers}, author={Wei Pang and Kevin Qinghong Lin and Xiangru Jian and Xi He and Philip Torr}, year={2025}, eprint={2505.21497}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.21497}, }
搜集汇总
数据集介绍

构建方式
Paper2Poster数据集通过系统化的数据采集和标注流程构建而成,专注于从学术论文中生成高质量的海报。数据来源包括近期经过同行评审的AI领域会议论文,如ICML、NeurIPS和ICLR(2022-2024),确保数据的科学性和时效性。数据筛选过程中,特别关注论文长度和版本,选择超过15页且包含补充材料的论文,并手动获取其最新版本。最终数据集包含100对论文-海报组合,按发表年份和会议来源分层,以确保数据的多样性和平衡性。
使用方法
Paper2Poster数据集的使用方法包括三个主要步骤:解析、规划和绘制-评论循环。首先,解析模块将论文PDF转换为结构化的资源库,包括文本摘要和提取的图表。接着,规划模块通过语义匹配和二叉树布局生成海报的全局结构。最后,绘制-评论循环通过迭代反馈优化每个面板的内容和布局。用户可以通过提供的代码库和评估协议,系统地生成和评估学术海报,适用于自动化海报生成模型的研究和开发。
背景与挑战
背景概述
Paper2Poster数据集由Waterloo大学、新加坡国立大学和牛津大学的研究团队于2025年创建,旨在解决学术海报自动生成这一科学传播中的关键挑战。该数据集首次建立了论文-海报配对基准与评估体系,通过视觉质量、文本连贯性、整体评估和创新的PaperQuiz四大维度,系统衡量生成海报在信息压缩、多模态对齐和视觉可读性方面的表现。作为科学可视化领域的重要基础设施,该数据集推动了学术海报从人工设计向智能生成的范式转变,对计算机视觉与自然语言处理的交叉研究具有里程碑意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决长上下文多模态文档向单页视觉化内容的压缩难题,包括保持论文核心信息的完整性、处理图文交织的复杂语义关联、以及满足严格的空间布局约束;在构建过程中,需克服数据采集的专业壁垒(确保论文-海报配对的科学性)、评估指标的设计复杂性(平衡视觉审美与信息传达),以及生成系统的工程挑战(实现端到端的可编辑PPT输出)。特别地,PaperQuiz指标的创新性设计需要精确模拟读者认知过程,这对视觉语言模型的判别能力提出了极高要求。
常用场景
经典使用场景
在科学传播领域,Paper2Poster数据集为学术海报的自动化生成提供了首个系统性基准与评估框架。该数据集通过配对会议论文与作者设计的海报,构建了多模态上下文压缩任务,其经典使用场景包括验证生成模型在视觉质量、文本连贯性、整体美学和信息传递效率等维度的性能。研究者可利用该数据集评估模型是否能在单页版面中精准提炼论文核心内容,并保持视觉语义对齐与空间布局合理性。
解决学术问题
该数据集解决了学术海报生成领域长期缺乏标准化评估的痛点,首次定义了四项核心指标:视觉质量衡量生成海报与人类设计的语义对齐度;文本连贯性通过语言模型困惑度量化;整体评估采用VLM评分六项细粒度标准;独创的PaperQuiz指标通过模拟读者问答评估知识传递效率。这些指标共同填补了多模态长上下文压缩任务中质量评估的空白,为后续研究提供了可复现的基准体系。
实际应用
在实际应用中,该数据集支撑的PosterAgent系统能以0.005美元成本将22页论文转化为可编辑的.pptx海报,显著提升学术会议筹备效率。其视觉反馈循环机制可避免文本溢出和布局失衡问题,生成的成果已被证明在信息密度和读者参与度方面接近人类设计水平。该系统特别适用于需要快速制作大量海报的研究团队,或作为学术写作工具的增强模块集成至出版流程。
数据集最近研究
最新研究方向
近年来,Paper2Poster数据集在科学传播与多模态生成领域引起了广泛关注。该数据集聚焦于学术海报的自动化生成,通过结合视觉质量、文本连贯性、整体评估及创新的PaperQuiz指标,为多模态内容压缩与布局优化提供了首个系统性基准。当前研究热点集中在三个方面:一是基于视觉反馈的迭代式布局生成,如PosterAgent框架通过解析-规划-绘制三阶段流水线实现空间感知的内容编排;二是跨模态对齐评估,利用CLIP等模型量化图文语义一致性;三是知识传递效率衡量,通过VLM模拟读者理解程度验证海报的信息浓缩效果。这些方向不仅推动了学术设计自动化的发展,也为长上下文多模态生成任务提供了新的评估范式。
相关研究论文
- 1Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers滑铁卢大学、新加坡国立大学、牛津大学 · 2025年
以上内容由遇见数据集搜集并总结生成



