PresentEval
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/AIGeeksGroup/PresentEval
下载链接
链接失效反馈官方服务:
资源简介:
PresentEval是一个多模态演示评估基准,源自论文《PresentAgent-2: Towards Generalist Multimodal Presentation Agents》。该基准旨在评估能够将开放式用户查询转化为带旁白演示视频的智能体框架,核心目标是衡量智能体在研究主题、检索多模态资源以及跨不同交付模式传递结构化内容方面的综合能力。评估涵盖三种具体模式:1) 单讲者演示:生成单讲者旁白的演示视频;2) 讨论:创建具有结构化角色的多讲者演示,角色包括提问引导、解释概念、澄清细节和总结要点;3) 互动:评估基于生成的幻灯片、脚本、检索到的证据和演示上下文来回答观众问题的能力。评估采用客观测验评估(使用视觉语言模型作为观众,根据生成的视频和音频转录回答多项选择题以衡量知识传递效果)和主观评分(使用视觉语言模型评委根据内容质量、媒体相关性、对话自然度和互动依据等模式特定标准进行1-5分打分)。该数据集适用于文本到视频生成、多模态智能体评估以及自动演示生成等任务场景。
创建时间:
2026-05-09
搜集汇总
数据集介绍

构建方式
PresentEval是一个面向多模态演示代理的评估基准,来源于《PresentAgent-2: Towards Generalist Multimodal Presentation Agents》一文。该基准旨在衡量代理框架将开放式用户查询转化为配有旁白的演示视频的能力,涵盖主题研究、多模态资源检索及结构化内容输出。构建方式上,它设计了三种不同的交付模式:单播模式生成单人旁白的演示视频;讨论模式创建多发言人结构,包含提问、解释、澄清和总结等角色;交互模式则测试代理基于生成的幻灯片、脚本、证据和演示上下文回答观众问题的能力。评估采用双轨策略:客观测验评估利用视觉语言模型作为观众,基于视频和音频转录回答五道选择题,以衡量知识传递效果;主观评分则依赖视觉语言模型裁判,根据内容质量、媒体相关性、对话自然性和交互基础等标准进行1-5分打分。
特点
PresentEval的特点在于其多维度的评估体系与贴近真实演示场景的设计。它不仅仅关注视频生成质量,更深层次地考察代理的知识组织与传递效率,通过客观选择题量化信息接收准确度。同时,主观评分覆盖从内容到交互的多个维度,确保评估的全面性。三种交付模式模拟了从单人汇报到小组讨论再到实时互动的完整呈现链条,使得基准能够反映代理在复杂多模态任务中的通用能力。此外,基准强调多模态资源的检索与整合,要求代理在视频中自然融入图像、文本等元素,这显著区别于仅关注文本或单一模态输出的传统评测。
使用方法
使用PresentEval评估演示代理时,研究者需将代理配置为接收开放式查询并输出带旁白的演示视频。具体操作包括:根据模式选择单播、讨论或交互场景,代理生成相应的视频内容后,调用视觉语言模型进行客观题作答,计算知识传递准确率。同时,利用主观评分模块,依据模式特定标准对视频质量打分。基准提供了公开的GitHub仓库和项目页面,内含完整的评测脚本、示例查询及评分工具,便于复现与扩展。研究者可参照论文中的评估流程,将自身代理集成到基准框架中,通过标准化问答与打分机制获取性能对比结果,从而验证代理在多模态呈现任务中的表现。
背景与挑战
背景概述
PresentEval是一个面向多模态演示的评估基准,由Wu Wei、Xu Ziyang等研究者于2026年发布,隶属于AIGeeksGroup。该基准依托于PresentAgent-2项目,旨在前沿性地评估智能体框架在将开放式用户查询转化为叙述性演示视频方面的能力。其核心研究问题聚焦于智能体在研究主题、检索多模态资源以及跨三种不同交付模式(单人演示、多人讨论、互动问答)传递结构化内容时的综合效能。PresentEval的出现为多模态演示智能体的标准化评估提供了重要参照,有力推动了该领域从单一内容生成向复杂交互与知识传递的跃迁。
当前挑战
PresentEval所解决的领域问题核心在于如何客观且全面地评估多模态演示智能体在知识传递与交互中的表现。构建过程中面临的挑战包括:1) 设计能精确测量信息传递有效性的客观评估方式,通过视觉语言模型基于生成视频与音频旁白回答选择题;2) 构建涵盖内容质量、媒体相关性、对话自然度及交互依据的主观评分体系,确保评判标准在不同交付模式下具有区分度与一致性;3) 应对开放式查询引发的主题多样性及多模态资源检索的不确定性,确保基准测试的可重复性与推广性。
常用场景
经典使用场景
PresentEval作为一个多模态演示基准,其核心使用场景在于评估能够将开放式用户查询转化为配有旁白的演示视频的智能体框架。具体而言,它衡量智能体在三种截然不同的交付模式下的综合能力:单演讲者模式生成一段由单一发言人叙述的视频;讨论模式创建具有结构化角色的多发言人演示,涵盖提问引导、概念阐释、细节澄清与要点总结等环节;交互模式则检验智能体基于生成的幻灯片、脚本、检索到的证据及演示上下文回答观众问题的能力。这一基准为测试多模态智能体在复杂内容生成与传递任务中的表现提供了系统化的评估框架。
解决学术问题
该数据集有效解决了多模态智能体领域在演示生成任务中缺乏标准化评估体系的关键学术难题。传统上,此类系统的性能评估往往依赖于主观的人工判断或零散的定性分析,缺乏统一、可量化的度量标准。PresentEval通过引入双重评价策略——客观题库评估与主观打分——为研究者提供了科学严谨的评估工具。前者利用视觉语言模型作为观众回答多选题,精准衡量知识传递的有效性;后者则依据特定模式下的质量标准进行1至5分的细粒度打分。这一方法学上的突破,显著推动了多模态智能体研究从定性描述走向定量分析的范式转变。
衍生相关工作
围绕PresentEval基准,已衍生出一系列具有影响力的相关工作。其核心来源是名为PresentAgent-2的通用多模态演示智能体框架,该框架首次提出将开放式查询转化为多模态演示视频的完整技术路线。在此基础上,研究者进一步探索了多种变体与延伸,包括优化多智能体协作机制的讨论模式下对话流畅性改进,以及基于检索增强生成技术的交互应答模块升级。该基准的价值还体现在它激发了对智能体评估方法论本身的深入探讨,催生了一批关于如何更好地度量智能体系统在多模态内容生成与传递任务中表现的研究工作。
以上内容由遇见数据集搜集并总结生成



