PPTArena

github2025-12-04 更新2025-12-05 收录

下载链接：

https://github.com/michaelofengend/PPTArena

下载链接

链接失效反馈

官方服务：

资源简介：

PPTArena是一个用于PowerPoint编辑的基准测试，测量在自然语言指令下对真实幻灯片的可靠修改。它专注于100个deck、2125个幻灯片和超过800个目标编辑，涵盖文本、图表、表格、动画和主样式等多个方面。每个案例包括一个真实deck、一个完全指定的目标结果和一个双VLM-as-judge管道，分别使用结构差异和幻灯片图像评分指令遵循和视觉质量。

PPTArena is a benchmark for PowerPoint editing that measures reliable modifications to real-world slides under natural language instructions. It encompasses 100 decks, 2125 slides, and over 800 targeted editing instances, covering multiple dimensions including text, charts, tables, animations, and master styles. Each case includes a real PowerPoint deck, a fully specified target outcome, and a dual VLM-as-judge pipeline, which separately evaluates instruction adherence via structural difference comparison and visual quality through slide image scoring.

创建时间：

2025-11-26

原始信息汇总

PPTArena 数据集概述

数据集简介

PPTArena 是一个用于 PowerPoint 编辑的基准测试，旨在衡量根据自然语言指令对真实幻灯片进行可靠修改的能力。

核心特点

代理式编辑：支持使用自然语言指令编辑 PowerPoint 演示文稿。
双视图评估：支持并排比较“原始”与“真实结果”幻灯片。
迭代优化：代理遵循计划、执行和验证的循环进行编辑。
多模态评判：使用 VLM-as-a-judge 进行自动化评估，涵盖指令遵循和视觉质量两方面。
综合性基准：涵盖文本编辑、图表操作、布局调整和图像处理等多种任务。

数据集规模与内容

覆盖范围：包含 100 个演示文稿、2125 张幻灯片以及超过 800 个目标编辑操作。
编辑类型：涵盖文本、图表、表格、动画和母版级样式。
数据构成：每个案例包含一个真实结果演示文稿和一个完全指定的目标结果。

评估方法

采用双 VLM-as-judge 流程。
分别对指令遵循和视觉质量进行评分。
评分结合了结构化差异和幻灯片图像。

目录结构

Original/：基准数据集 - 原始 PowerPoint 文件。
GroundTruth/：基准数据集 - 真实结果 PowerPoint 文件。

引用

bibtex @article{ofengenden2025pptarena, title={PPTArena: A Benchmark for Agentic PowerPoint Editing}, author={Ofengenden, Michael and Man, Yunze and Pang, Ziqi and Wang, Yu-Xiong}, journal={arXiv preprint arXiv:2512.03042}, year={2025} }

搜集汇总

数据集介绍

构建方式

在智能文档编辑领域，PPTArena基准的构建体现了对真实场景下幻灯片编辑任务的深度模拟。该数据集基于100个真实演示文稿、2125张幻灯片以及超过800项针对性编辑任务精心构建，覆盖文本、图表、表格、动画及母版样式等多种编辑类型。每个案例均包含原始幻灯片、明确的目标结果描述，并采用双重视觉语言模型评估流程，通过结构差异比对与幻灯片图像分析，分别对指令遵循度与视觉质量进行自动化评分。

特点

PPTArena数据集的核心特点在于其专注于原位编辑的评估范式，与传统的图像渲染或文本生成幻灯片任务形成鲜明对比。数据集提供了并排对比的“原始”与“标准答案”幻灯片视图，支持对编辑结果进行直观比较。其评估体系融合了多模态自动评判机制，能够同时考量指令执行的准确性与视觉保真度，尤其擅长处理布局敏感及跨幻灯片的复杂编辑任务，为智能编辑系统的性能提供了全面而严谨的度量标准。

使用方法

研究人员可通过克隆项目仓库并安装依赖来使用该数据集。启动本地Web应用后，用户可在评估界面选择特定测试案例，观察原始与标准答案幻灯片的差异，并运行智能代理生成预测结果。数据集集成了自动化评估功能，用户可调用视觉语言模型评判器对代理的编辑输出进行评分。此外，交互式聊天界面允许用户上传任意演示文稿文件，通过自然语言指令直接进行编辑操作与迭代优化，为算法开发与验证提供了便捷的实验平台。

背景与挑战

背景概述

在人工智能与办公自动化交叉领域，智能文档编辑已成为提升生产力的关键研究方向。PPTArena数据集于2025年由Michael Ofengenden、Yunze Man、Ziqi Pang和Yu-Xiong Wang等研究人员提出，旨在构建一个针对PowerPoint演示文稿进行智能编辑的基准测试平台。该数据集聚焦于通过自然语言指令对真实幻灯片进行可靠修改的核心研究问题，涵盖了文本、图表、表格、动画及母版样式等超过800项针对性编辑任务。其创新性在于将传统的文档处理从静态生成转向动态的、结构感知的交互式编辑，为评估智能体在复杂办公场景下的理解和执行能力提供了标准化依据，显著推动了智能体辅助创作与自动化办公工具的发展。

当前挑战

PPTArena数据集致力于解决智能体在理解和执行自然语言指令以编辑结构化演示文稿时所面临的多重挑战。在领域问题层面，主要挑战包括如何准确解析模糊或复杂的用户意图，并转化为对幻灯片中嵌套元素（如嵌入图表、分层动画）的精确操作，同时保持整体视觉布局的连贯性与专业美学标准。在构建过程中，挑战体现在创建高质量的真实编辑对，需确保原始幻灯片与目标版本在语义和视觉上均具备明确对应关系，并开发一套能够同时评估指令遵循度与视觉保真度的双重视觉语言模型评判流程，以克服自动化评估中结构差异与图像质量难以兼顾的难题。

常用场景

经典使用场景

在自动化办公与智能文档处理领域，PPTArena数据集为基于自然语言指令的演示文稿编辑任务提供了标准化评估框架。其经典使用场景集中于对真实幻灯片进行精准的原地编辑，涵盖文本、图表、表格、动画及母版样式等多元元素。研究者通过该数据集能够系统评估智能体在理解复杂指令后，对幻灯片结构进行可靠修改的能力，尤其适用于测试多模态大模型在保持视觉一致性与布局敏感性方面的表现。

衍生相关工作

基于PPTArena的评估框架，研究者提出了PPTPilot这一结构感知的幻灯片编辑智能体，其通过语义编辑序列规划与程序化工具路由实现精确控制。该工作衍生出对多模态大模型在文档编辑中规划能力、约束满足及迭代优化的一系列探索，进一步推动了如SlideAgent、DeckGen等专注于演示文稿生成与编辑的智能系统发展，为文档智能领域的算法创新提供了重要参照。

数据集最近研究