ArcBench
收藏ArcBench: ML Conference Oral Paper-Presentation Benchmark 数据集概述
数据集简介
ArcBench是一个精心策划的基准数据集,包含来自顶级机器学习会议(CVPR、ICCV、ICLR、ICML、NeurIPS)的100篇口头报告论文,时间跨度为2022年至2025年。该数据集源自论文《Narrative-Driven Paper-to-Slide Generation via ArcDeck》。每个条目包含完整的论文PDF、演示文稿幻灯片PDF以及丰富的元数据。
数据集结构
文件组织
数据集包含以下文件:
benchmark.csv:包含所有100篇论文的元数据。papers/目录:包含100篇原始完整论文的PDF文件。slides/目录:包含100份演示文稿幻灯片的PDF文件。
元数据字段 (benchmark.csv)
| 字段 | 类型 | 描述 |
|---|---|---|
Paper Title |
字符串 | 论文完整标题 |
Year |
整数 | 出版年份(2022–2025) |
Conference |
字符串 | 会议名称(CVPR, ICCV, ICLR, ICML, NeurIPS) |
Presentation Type |
字符串 | 始终为 Oral |
Number of Figures |
整数 | 论文中的图表数量 |
Number of Equations |
整数 | 论文中的公式数量 |
Number of Tables |
整数 | 论文中的表格数量 |
Appendix |
字符串 | 论文是否包含附录(Yes/No) |
Slide Animations |
字符串 | 关于幻灯片动画的备注(如有) |
Character_Count |
整数 | 论文的总字符数(通过PDF提取) |
Number_of_Slides |
整数 | 幻灯片PDF的页数/幻灯片数量 |
Topics |
字符串 | 通过LLM提取的研究主题,以分号分隔 |
命名规范
文件命名为 {type}{index}_{CleanTitle}_{Conference}_{Year}.pdf,其中:
index是从0开始的索引,在papers/和slides/目录中保持一致以匹配论文与幻灯片对。CleanTitle移除了特殊字符,并将空格替换为下划线(最多100个字符)。
数据集统计
会议分布
| 会议 | 论文数量 |
|---|---|
| ICML | 51 |
| ICLR | 31 |
| NeurIPS | 12 |
| ICCV | 4 |
| CVPR | 2 |
年份分布
| 年份 | 论文数量 |
|---|---|
| 2022 | 15 |
| 2023 | 15 |
| 2024 | 26 |
| 2025 | 44 |
内容统计
| 指标 | 平均值 | 最小值 | 最大值 |
|---|---|---|---|
| 每篇论文图表数 | 6.0 | 3 | 18 |
| 每篇论文表格数 | 5.3 | 3 | — |
| 每篇论文幻灯片数 | 27.5 | 8 | 85 |
| 每篇论文字符数 | 50,411 | — | — |
- 92% 的论文包含附录。
- 100% 为口头报告。
主要研究主题
通过GPT-4o-mini从论文摘要中提取: 对比学习 · 图神经网络 · 因果推断 · 多模态大语言模型 · 联邦学习 · 采样效率 · 强化学习 · 扩散模型 · 自监督学习 · 视觉语言模型
筛选标准
论文从一个包含994篇论文的更广泛数据集中,通过以下筛选条件选出:
- 报告类型: 仅限口头报告。
- 最少图表数: ≥ 3。
- 最少表格数: ≥ 3。
- 原始论文可用性: 必须拥有完整(非匿名)版本。
- 平衡抽样: 按年份和会议进行比例分层抽样,最终精确选取100篇论文。
预期用途
该数据集适用于:
- 幻灯片生成 / 论文到幻灯片摘要: 给定
papers/中的论文,生成可与slides/中幻灯片相媲美的幻灯片。 - 基于幻灯片的问答: 使用幻灯片作为上下文回答关于论文的问题。
- 跨模态检索: 将论文与其对应的幻灯片进行匹配。
- LLM评估: 评估LLM对密集科学文档的理解能力。
- 多模态文档分析: 研究图表、表格、公式与幻灯片内容之间的关系。
数据来源
论文收集自以下会议的官方论文集:
- ICML (2022–2025)
- ICLR (2024–2025)
- NeurIPS (2022–2025)
- CVPR (2024–2025)
- ICCV (2025)
引用
若在研究中使用此数据集,请引用: bibtex @article{ozden2026arcdeck, title = {Narrative-Driven Paper-to-Slide Generation via ArcDeck}, author = {Ozden, Tarik Can and VS, Sachidanand and Horoz, Furkan and Kara, Ozgur and Kim, Junho and Rehg, James M.}, journal = {arXiv preprint arXiv:2604.11969}, year = {2026} }
许可证
MIT。 个别论文和幻灯片PDF文件仍归其原作者版权所有。在重新分发前,请查阅每篇论文的许可证。




