OmniBench
收藏arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://omni-bench.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
OmniBench是一个自生成的跨平台图基准,具有自动化的管道,用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力,我们进一步提出了OmniEval,这是一个多维度评估框架,包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务,跨越20个场景,实现了91%的人类接受率。在图结构数据上训练表明,它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估,揭示了它们在各种能力方面的性能,为未来的进步铺平了道路。
OmniBench is a self-generated cross-platform graph benchmark with an automated pipeline for synthesizing tasks with controllable complexity via subtask composition. To evaluate the diverse capabilities of virtual agents on graph structures, we further propose OmniEval, a multi-dimensional evaluation framework that encompasses subtask-level evaluation, graph-based metrics, and comprehensive tests across 10 capabilities. Our synthetic dataset contains 36,000 graph-structured tasks spanning 20 scenarios, achieving a 91% human acceptance rate. Training on graph-structured data demonstrates that it can guide agents more effectively than manually annotated data. We conducted multi-dimensional evaluations on various open-source and closed-source models, revealing their performance across diverse capabilities and paving the way for future advancements.
提供机构:
浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京
创建时间:
2025-06-10
原始信息汇总
OmniBench数据集概述
基本信息
- 数据集名称: OmniBench
- 发布机构: 浙江大学、蚂蚁集团、香港科技大学、南京大学
- 发布状态: ICML 2025 Oral (top 1%)
- 数据规模: 36k图结构任务
- 场景覆盖: 20个不同场景
- 人类接受率: 91%
- 任务复杂度: 五维任务复杂度
- 评估维度: 10个能力维度
核心特点
- 自动化任务合成: 通过子任务组合自动生成可控复杂度的任务
- 图结构基准: 采用图结构形式组织任务和评估
- 多维评估框架: 包含子任务级评估、基于图的指标和10项能力测试
- 高效数据利用: 相比人工标注数据能更高效指导智能体
任务构成
- 子任务发现: 从可探索环境中合成简单子任务指令
- 子任务合成: 迭代合成子任务轨迹和评估函数
- 任务组合: 自底向上将子任务组合成完整任务
- 任务验证: 最终验证任务语义有效性
评估体系
- 评估框架: OmniEval
- 评估指标:
- 子任务级评估函数
- 两个新颖细粒度指标(图结构任务表现和人类逻辑对齐)
- 评估范围:
- 12个虚拟智能体(开源和专有模型)
- 10项能力维度全面评估
典型任务案例
- 任务示例1: 创建PPT文件,保存邮件中的图片并插入,复制本地文本内容到标题框,最后发送文件
- 任务示例2: 创建PPT文件,插入邮件图片和应用滤镜后的图片,最后发送文件
统计信息
- 应用分布: 49个应用及其对应类别
- 步骤分布: 完成子任务和完整任务所需的步骤分布
对比优势
- 任务维度: 自动任务组合 vs 人工标注
- 复杂度维度: 五维任务复杂度 vs 单一维度
- 评估维度: 10能力评估框架 vs 粗粒度评估
搜集汇总
数据集介绍

构建方式
OmniBench采用自生成、跨平台的图结构基准测试框架,通过自动化流水线合成具有可控复杂度的任务。其构建过程分为四个关键阶段:首先通过环境探索和MLLMs交互发现基础子任务;随后采用迭代合成机制优化子任务的执行轨迹和评估函数;接着基于资源依赖关系和任务意图进行图结构任务组合;最后通过语义一致性验证确保任务质量。该框架创新性地引入五维复杂度定义(依赖、指令、知识、层级、分支),通过约束有向无环图(DAG)的合成过程实现任务复杂度的精确控制。
特点
作为首个可扩展的多维虚拟智能体评估基准,OmniBench具备三大核心特征:其一,包含36k个图结构任务,覆盖20个真实场景和49个应用程序,规模达环境基准的40倍;其二,首创五维任务复杂度体系,支持从简单到困难的渐进式评估;其三,集成自动化质量控制系统(交叉验证、意图提取、一致性校验),任务人类接受率达91%。其图结构数据相比人工标注数据能更高效指导智能体训练,在AndroidControl和OmniAct基准上分别带来0.46和0.73的性能提升。
使用方法
使用OmniBench需遵循三阶段流程:首先通过DAG拓扑分析选择目标复杂度组合,构建特定能力测试集;随后采用图评估器(OmniEval)进行多维度评估,包括子任务完成率(CR)和逻辑一致性(LC)两个创新指标;最终通过失败分析模块识别智能体短板。基准支持三种输入模态(屏幕截图、可访问树、混合模式),可适配不同架构的智能体。对于开源模型建议提供A11Y元数据辅助推理,闭源模型则推荐使用双帧拼接输入策略以增强时序理解。
背景与挑战
背景概述
OmniBench是由浙江大学、蚂蚁集团等机构的研究团队于2025年提出的一个创新型多维度虚拟智能体评估基准。该数据集针对多模态大语言模型(MLLM)驱动的虚拟智能体在复杂任务执行中的能力评估问题,通过创新的图结构任务合成方法,构建了包含36k个任务的跨平台评估体系。数据集创新性地定义了依赖复杂度、指令复杂度等五维任务复杂度指标,并配套开发了OmniEval多维评估框架,可系统评估智能体在规划、决策等10项核心能力上的表现。
当前挑战
OmniBench主要解决三大挑战:1) 传统基准任务复杂度不可控且固定,难以适应智能体能力发展;2) 人工标注成本高昂导致场景覆盖有限;3) 粗粒度评估无法反映智能体多维度能力差异。在构建过程中面临图结构任务合成、自动化评估函数生成等技术难点,需解决任务意图保持、语义一致性验证等关键问题。数据集特别揭示了当前智能体在图结构任务处理(仅20.5%成功率)和长指令理解(32.2分vs人类66.1分)等维度存在显著能力瓶颈。
常用场景
经典使用场景
OmniBench数据集在虚拟代理能力评估领域具有广泛的应用场景,其最经典的用途在于为多模态大语言模型(MLLM)驱动的虚拟代理提供多维度的基准测试。通过其自动生成的图结构任务,研究者能够系统评估代理在规划、决策、指令理解等10项核心能力上的表现。该数据集特别适用于需要精确控制任务复杂度的实验设计,例如分析代理在依赖复杂度、分支复杂度等五维指标下的性能变化规律。
衍生相关工作
基于OmniBench的图结构评估范式,研究者已衍生出多项创新工作:CRAB采用手工构建的任务图进行跨环境代理评估;TASKBENCH开发了简化的图结构指标用于任务自动化评测;Aguvis等视觉代理通过引入OmniBench的依赖识别方法改进了GUI操作逻辑。数据集还启发了对任务意图嵌入、表达顺序鲁棒性等新研究方向的开创性探索,相关成果发表在ICML、CVPR等顶级会议上。
数据集最近研究
最新研究方向
近年来,OmniBench数据集在虚拟代理能力评估领域引起了广泛关注。作为首个基于图结构的可扩展多维基准,该数据集通过自动化子任务组合实现了任务复杂度的精确控制,为评估多模态大语言模型(MLLM)在跨平台环境中的表现提供了系统性框架。当前研究热点集中在三个方面:图结构任务对代理规划能力的挑战性评估、任务意图理解对执行效率的影响机制,以及基于多维能力矩阵的代理性能诊断。值得注意的是,该数据集揭示的主流代理在图结构任务中表现欠佳的现象(GPT-4o仅达人类性能的25.6%),直接推动了虚拟代理在长序列推理和跨域知识迁移方面的算法改进。相关研究已被应用于OSWorld、AndroidControl等主流环境,显著提升了代理在真实场景中的任务完成率和逻辑一致性。
相关研究论文
- 1What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京 · 2025年
以上内容由遇见数据集搜集并总结生成



