POSTERSUM

Name: POSTERSUM
Creator: 爱丁堡大学信息学院语言认知与计算研究所
Published: 2025-02-25 02:35:39
License: 暂无描述

arXiv2025-02-25 更新2025-02-27 收录

下载链接：

https://huggingface.co/datasets/rohitsaxena/PosterSum

下载链接

链接失效反馈

官方服务：

资源简介：

POSTERSUM是一个由爱丁堡大学信息学院语言认知与计算研究所创建的大型多模态数据集，包含16305对学术海报图像及其对应的研究论文摘要。这些海报来自主要的机器学习和人工智能会议，如ICLR、ICML和NeurIPS，涵盖了从2022年至2024年的范围。数据集捕捉了学术海报的多样性和异质性，包括复杂的布局和文本、表格、图表等多种视觉元素的组合。每个海报都与一个人类编写的摘要配对，摘要突出了研究的核心发现和贡献，为海报提供了一个理想的摘要基础。

POSTERSUM is a large-scale multimodal dataset developed by the Language, Cognition, and Computation Institute within the School of Informatics, University of Edinburgh. It comprises 16,305 pairs of academic poster images and their corresponding research paper abstracts. These posters are sourced from top-tier machine learning and artificial intelligence conferences including ICLR, ICML, and NeurIPS, spanning the years 2022 to 2024. The dataset captures the diversity and heterogeneity of academic posters, which feature complex layouts and combinations of diverse visual elements such as text, tables, and figures. Each poster is paired with a human-written abstract that highlights the core findings and contributions of the associated research, providing an ideal abstract foundation for the poster.

提供机构：

爱丁堡大学信息学院语言认知与计算研究所

创建时间：

2025-02-25

搜集汇总

数据集介绍

构建方式

POSTERSUM数据集的构建始于从顶级机器学习和人工智能会议（如ICLR、ICML和NeurIPS）的网站上收集研究论文的链接和标识符。随后，筛选出可获取海报的论文，并收集了2022年至2024年间的海报。数据集的构建过程中，还手动审查了数据集，以移除包含占位符图像的海报。为了确保每个海报都有对应的摘要，研究者从相应的论文页面提取了研究论文的摘要，这些摘要作为海报的总结。最终，数据集包含了16,305个科学海报及其对应的摘要，这些海报以PNG格式提供，并配以高分辨率的图像和详尽的摘要。

特点

POSTERSUM数据集的独特之处在于其包含的科学海报的多样性。这些海报来自不同的科学领域，涵盖了从强化学习到自然语言处理等多个子领域。每个海报都配有一个由人类撰写的摘要，这些摘要不仅简明扼要，而且内容丰富，为研究提供了重要的参考。此外，数据集中的海报具有复杂的布局，包含密集的文本区域、表格和图表，为视觉理解带来了挑战。POSTERSUM数据集的构建为评估和改进多模态大型语言模型在科学海报摘要生成方面的能力提供了一个宝贵的资源。

使用方法

POSTERSUM数据集的使用涉及对多模态大型语言模型进行评估和训练。研究者在数据集上评估了多种开源和闭源的多模态模型，包括GPT-4o、Claude 3.5 Sonnet和Gemini 2.0等。为了提高模型的性能，研究者还探索了参数高效的微调技术。此外，数据集还被用于验证和改进SEGMENT & SUMMARIZE方法，这是一种分层方法，它将海报分割成多个区域，然后分别对这些区域进行摘要，最后将局部摘要合并成整体摘要。使用POSTERSUM数据集，研究者可以评估不同模型的摘要生成能力，并探索改进多模态模型在科学海报摘要生成方面的有效策略。

背景与挑战

背景概述

科学海报在学术交流中扮演着至关重要的角色，它们是一种视觉丰富的媒介，结合了文本、图像、图表和其他图形元素来呈现研究成果。然而，将这种视觉复杂的海报总结成准确而简洁的文本摘要是一个独特的挑战，需要模型有效地整合多模态信息。POSTERSUM数据集就是为了解决这个问题而创建的。该数据集由16,305个会议海报及其相应的摘要组成，旨在推动能够理解和总结科学海报的视觉语言模型的发展。POSTERSUM数据集涵盖了广泛的科学领域，并提出了独特的挑战，包括复杂的布局、密集的文本区域、表格和图表。通过对POSTERSUM数据集的研究，可以更好地理解视觉语言模型在处理和总结科学海报方面的局限性，并为未来研究提供有价值的基准。

当前挑战

POSTERSUM数据集面临的主要挑战包括：1) 科学海报的多模态信息整合：海报通常包含复杂的布局、技术术语、以及文本、表格和图表之间的复杂交互，这要求模型能够有效地理解和整合这些多模态信息。2) 海报的视觉理解：海报的视觉元素，如图表、图形和方程，往往难以用语言描述，需要模型具备强大的视觉理解能力。3) 海报的文本理解：海报中的文本通常密集且专业，要求模型能够准确理解并提取关键信息。4) 摘要的生成：生成准确、简洁且具有逻辑性的摘要需要模型具备高级的语言生成能力。POSTERSUM数据集的创建和使用为解决这些挑战提供了重要的资源，并为未来研究提供了新的方向。

常用场景

经典使用场景

POSTERSUM 数据集的创建旨在推动对科学海报的多模态理解与总结，特别是在将视觉复杂的内容如科学海报转化为研究论文摘要方面。该数据集包含了 16,305 张会议海报及其对应的摘要，每张海报都提供了图像格式，并展示了多样的视觉理解挑战，如复杂的布局、密集的文本区域、表格和图形。POSTERSUM 数据集被用来评估最先进的 Multimodal Large Language Models (MLLMs) 在科学海报摘要任务上的性能，并揭示它们在准确解释和总结科学海报方面的局限性。

解决学术问题

POSTERSUM 数据集解决了科学海报摘要的难题，这需要模型有效地整合多模态信息。现有的 MLLMs 在处理科学文本时表现不佳，而且科学海报的复杂性，如布局、技术术语的使用以及文本、表格和图形之间的复杂交互，使得总结科学海报成为一项极具挑战性的任务。POSTERSUM 数据集的出现填补了这一研究空白，为未来在多模态科学海报理解方面的研究提供了一个重要的起点。

衍生相关工作

POSTERSUM 数据集的创建激发了相关研究的兴趣，特别是 SEGMENT & SUMMARIZE 方法的提出。这种方法将海报分割成连贯的区域，提取每个区域的文本内容，然后生成一个整体的摘要。SEGMENT & SUMMARIZE 方法在自动指标上优于当前的 MLLMs，并在科学海报摘要任务上取得了新的基准。这些研究进展为未来在多模态科学文档理解方面的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集