ArcBench

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/ArcDeck/ArcBench

下载链接

链接失效反馈

官方服务：

资源简介：

ArcBench 是一个机器学习会议口头报告论文与演示文稿的基准数据集，旨在支持多模态文档理解、幻灯片生成、论文与幻灯片对齐以及大语言模型评估等研究任务。该数据集精选了 100 篇来自顶级机器学习会议（CVPR、ICCV、ICLR、ICML、NeurIPS）的口头报告论文（2022-2025 年），每篇论文包含完整的 PDF 原文、演示文稿 PDF 幻灯片以及丰富的元数据。元数据包括论文标题、发表年份、会议名称、图表数量、附录信息、幻灯片动画注释、字符计数、幻灯片页数以及研究主题等。数据集经过严格筛选，确保每篇论文至少包含 3 个图表，且均为高质量的口头报告。统计数据显示，数据集在会议和年份上分布均衡，平均每篇论文包含 6 个图表、5.3 个表格和 27.5 页幻灯片。该数据集适用于幻灯片生成、基于幻灯片的问答、跨模态检索、大语言模型评估和多模态文档分析等任务。

创建时间：

2026-04-16

原始信息汇总

ArcBench: ML Conference Oral Paper-Presentation Benchmark 数据集概述

数据集简介

ArcBench是一个精心策划的基准数据集，包含来自顶级机器学习会议（CVPR、ICCV、ICLR、ICML、NeurIPS）的100篇口头报告论文，时间跨度为2022年至2025年。该数据集源自论文《Narrative-Driven Paper-to-Slide Generation via ArcDeck》。每个条目包含完整的论文PDF、演示文稿幻灯片PDF以及丰富的元数据。

数据集结构

文件组织

数据集包含以下文件：

benchmark.csv：包含所有100篇论文的元数据。
papers/ 目录：包含100篇原始完整论文的PDF文件。
slides/ 目录：包含100份演示文稿幻灯片的PDF文件。

元数据字段 (`benchmark.csv`)

字段	类型	描述
`Paper Title`	字符串	论文完整标题
`Year`	整数	出版年份（2022–2025）
`Conference`	字符串	会议名称（CVPR, ICCV, ICLR, ICML, NeurIPS）
`Presentation Type`	字符串	始终为 `Oral`
`Number of Figures`	整数	论文中的图表数量
`Number of Equations`	整数	论文中的公式数量
`Number of Tables`	整数	论文中的表格数量
`Appendix`	字符串	论文是否包含附录（`Yes`/`No`）
`Slide Animations`	字符串	关于幻灯片动画的备注（如有）
`Character_Count`	整数	论文的总字符数（通过PDF提取）
`Number_of_Slides`	整数	幻灯片PDF的页数/幻灯片数量
`Topics`	字符串	通过LLM提取的研究主题，以分号分隔

命名规范

文件命名为 {type}{index}_{CleanTitle}_{Conference}_{Year}.pdf，其中：

index 是从0开始的索引，在 papers/ 和 slides/ 目录中保持一致以匹配论文与幻灯片对。
CleanTitle 移除了特殊字符，并将空格替换为下划线（最多100个字符）。

数据集统计

会议分布

会议	论文数量
ICML	51
ICLR	31
NeurIPS	12
ICCV	4
CVPR	2

年份分布

年份	论文数量
2022	15
2023	15
2024	26
2025	44

内容统计

指标	平均值	最小值	最大值
每篇论文图表数	6.0	3	18
每篇论文表格数	5.3	3	—
每篇论文幻灯片数	27.5	8	85
每篇论文字符数	50,411	—	—

92% 的论文包含附录。
100% 为口头报告。

主要研究主题

通过GPT-4o-mini从论文摘要中提取：对比学习 · 图神经网络 · 因果推断 · 多模态大语言模型 · 联邦学习 · 采样效率 · 强化学习 · 扩散模型 · 自监督学习 · 视觉语言模型

筛选标准

论文从一个包含994篇论文的更广泛数据集中，通过以下筛选条件选出：

报告类型： 仅限口头报告。
最少图表数： ≥ 3。
最少表格数： ≥ 3。
原始论文可用性： 必须拥有完整（非匿名）版本。
平衡抽样： 按年份和会议进行比例分层抽样，最终精确选取100篇论文。

预期用途

该数据集适用于：

幻灯片生成 / 论文到幻灯片摘要： 给定 papers/ 中的论文，生成可与 slides/ 中幻灯片相媲美的幻灯片。
基于幻灯片的问答： 使用幻灯片作为上下文回答关于论文的问题。
跨模态检索： 将论文与其对应的幻灯片进行匹配。
LLM评估： 评估LLM对密集科学文档的理解能力。
多模态文档分析： 研究图表、表格、公式与幻灯片内容之间的关系。

数据来源

论文收集自以下会议的官方论文集：

ICML (2022–2025)
ICLR (2024–2025)
NeurIPS (2022–2025)
CVPR (2024–2025)
ICCV (2025)

引用

若在研究中使用此数据集，请引用： bibtex @article{ozden2026arcdeck, title = {Narrative-Driven Paper-to-Slide Generation via ArcDeck}, author = {Ozden, Tarik Can and VS, Sachidanand and Horoz, Furkan and Kara, Ozgur and Kim, Junho and Rehg, James M.}, journal = {arXiv preprint arXiv:2604.11969}, year = {2026} }

许可证

搜集汇总

数据集介绍

构建方式

在机器学习领域，高质量学术成果的呈现与传播日益重要。ArcBench数据集的构建遵循严谨的筛选流程，从CVPR、ICCV、ICLR、ICML和NeurIPS这五大顶级会议在2022至2025年间发表的论文中，仅选取口头报告的高质量论文。为确保内容的丰富性，设定了每篇论文至少包含三个图表和三个表格的硬性标准，并通过分层抽样方法，从994篇候选论文中最终精选出100篇，同时确保每篇论文的原始PDF与对应的演示幻灯片PDF均完整可用，从而形成了一一对应的多模态文档对。

特点

该数据集的核心特征在于其高度的专业性与结构化的多模态对齐。所有样本均源自顶尖会议的oral presentation，代表了领域内最具影响力的研究成果。数据集不仅提供了完整的论文与幻灯片PDF，还附带了详尽的元数据，包括图表数量、公式数量、幻灯片页数以及由大语言模型提取的研究主题标签。这种设计使得数据内在关联性强，便于进行跨模态的内容分析与对齐研究，为深入理解学术文档的结构与叙事逻辑提供了坚实基础。

使用方法

该数据集主要服务于多模态文档理解与生成的前沿研究。研究者可利用其进行从论文到幻灯片的自动生成任务，评估生成内容与原始幻灯片的对齐度。同时，数据集支持以幻灯片为背景的问答、跨模态检索等任务，为评估大语言模型对复杂科学文档的理解能力提供了标准基准。在使用时，用户可通过`benchmark.csv`文件获取元数据索引，并依据统一的命名规范在`papers/`和`slides/`目录下定位对应的PDF文件，从而开展相关的模型训练与评估工作。

背景与挑战

背景概述

在人工智能与学术交流深度融合的时代，如何高效地将复杂的学术论文转化为清晰、引人入胜的口头演示幻灯片，成为提升知识传播效率的关键挑战。ArcBench数据集应运而生，由Rehg实验室等研究团队于2026年创建，旨在为多模态文档理解与幻灯片自动生成研究提供高质量基准。该数据集精心选取了2022年至2025年间顶级机器学习会议（如CVPR、ICCV、ICML、ICLR、NeurIPS）的100篇口头报告论文，每篇均包含完整的论文PDF、对应的演示幻灯片PDF及丰富的元数据。其核心研究问题是探索如何基于论文内容自动生成结构合理、重点突出的演示材料，从而推动学术信息的高效转换与表达，对自然语言处理、计算机视觉及多模态人工智能领域的发展具有重要影响力。

当前挑战

ArcBench数据集致力于解决从学术论文到演示幻灯片的自动生成与对齐这一复杂领域问题，其核心挑战在于如何准确捕捉论文的叙事逻辑与核心贡献，并将其浓缩为视觉与文本并重的幻灯片形式。这要求模型不仅需理解密集的科学文本、图表和公式，还需掌握学术演示的修辞结构与视觉设计原则。在数据集构建过程中，研究人员面临多重挑战：首先，需确保数据的高质量与代表性，严格筛选仅包含口头报告且具有丰富图表内容的论文，并平衡不同会议与年份的分布；其次，处理多模态数据的对齐与标注复杂性，包括论文与幻灯片之间的内容映射、元数据（如图表数量、主题标签）的精确提取；此外，还需在尊重原作者版权的前提下，整合与发布异构的PDF文档，保障数据集的合法性与可用性。

常用场景

经典使用场景

在机器学习和人工智能领域，高效地将学术论文转化为演示文稿是一项关键任务。ArcBench数据集为此提供了理想的研究平台，其经典使用场景聚焦于论文到幻灯片的自动生成。该数据集精心选取了来自顶级会议的口头报告论文及其对应幻灯片，构成了一组高质量的多模态对齐样本。研究人员可基于此训练模型，学习如何从冗长的论文中提取核心论点、图表和公式，并组织成结构清晰的演示内容，从而推动文档摘要与可视化呈现技术的进步。

实际应用

超越纯学术探索，ArcBench数据集在多个实际应用场景中展现出价值。它可直接用于开发智能辅助工具，帮助学者、学生或行业研发人员快速为其研究成果创建高质量的演示文稿，大幅提升知识传播的效率。此外，该数据集支撑的模型可用于学术会议的内容索引与推荐系统，通过分析论文与幻灯片的关联，实现更精准的知识检索。在教育领域，它也能作为案例库，用于培训科学沟通与演示技能。

衍生相关工作

围绕ArcBench数据集，已衍生出一系列重要的相关研究工作。其源论文《Narrative-Driven Paper-to-Slide Generation via ArcDeck》提出的ArcDeck框架，为叙事驱动的幻灯片生成设立了新范式。该数据集进一步激发了在跨模态检索、幻灯片接地问答以及长文档理解评估等方面的研究。例如，后续工作可能探索如何利用其结构化的元数据（如图表数量、主题标签）来增强生成模型的控制能力，或将其作为基准测试集，用于比较不同多模态大模型在科学文档处理任务上的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集