OmniBench

Name: OmniBench
Creator: 浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京
Published: 2025-06-10 23:59:38
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://omni-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OmniBench是一个自生成的跨平台图基准，具有自动化的管道，用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力，我们进一步提出了OmniEval，这是一个多维度评估框架，包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务，跨越20个场景，实现了91%的人类接受率。在图结构数据上训练表明，它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估，揭示了它们在各种能力方面的性能，为未来的进步铺平了道路。

提供机构：

浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京

创建时间：

2025-06-10

原始信息汇总

OmniBench数据集概述

基本信息

数据集名称: OmniBench
发布机构: 浙江大学、蚂蚁集团、香港科技大学、南京大学
发布状态: ICML 2025 Oral (top 1%)
数据规模: 36k图结构任务
场景覆盖: 20个不同场景
人类接受率: 91%
任务复杂度: 五维任务复杂度
评估维度: 10个能力维度

核心特点

自动化任务合成: 通过子任务组合自动生成可控复杂度的任务
图结构基准: 采用图结构形式组织任务和评估
多维评估框架: 包含子任务级评估、基于图的指标和10项能力测试
高效数据利用: 相比人工标注数据能更高效指导智能体

任务构成

子任务发现: 从可探索环境中合成简单子任务指令
子任务合成: 迭代合成子任务轨迹和评估函数
任务组合: 自底向上将子任务组合成完整任务
任务验证: 最终验证任务语义有效性

评估体系

评估框架: OmniEval
评估指标:
- 子任务级评估函数
- 两个新颖细粒度指标（图结构任务表现和人类逻辑对齐）
评估范围:
- 12个虚拟智能体（开源和专有模型）
- 10项能力维度全面评估

典型任务案例

任务示例1: 创建PPT文件，保存邮件中的图片并插入，复制本地文本内容到标题框，最后发送文件
任务示例2: 创建PPT文件，插入邮件图片和应用滤镜后的图片，最后发送文件

统计信息

应用分布: 49个应用及其对应类别
步骤分布: 完成子任务和完整任务所需的步骤分布

对比优势

任务维度: 自动任务组合 vs 人工标注
复杂度维度: 五维任务复杂度 vs 单一维度
评估维度: 10能力评估框架 vs 粗粒度评估

搜集汇总

数据集介绍

构建方式

OmniBench采用自生成、跨平台的图结构基准测试框架，通过自动化流水线合成具有可控复杂度的任务。其构建过程分为四个关键阶段：首先通过环境探索和MLLMs交互发现基础子任务；随后采用迭代合成机制优化子任务的执行轨迹和评估函数；接着基于资源依赖关系和任务意图进行图结构任务组合；最后通过语义一致性验证确保任务质量。该框架创新性地引入五维复杂度定义（依赖、指令、知识、层级、分支），通过约束有向无环图（DAG）的合成过程实现任务复杂度的精确控制。

特点

作为首个可扩展的多维虚拟智能体评估基准，OmniBench具备三大核心特征：其一，包含36k个图结构任务，覆盖20个真实场景和49个应用程序，规模达环境基准的40倍；其二，首创五维任务复杂度体系，支持从简单到困难的渐进式评估；其三，集成自动化质量控制系统（交叉验证、意图提取、一致性校验），任务人类接受率达91%。其图结构数据相比人工标注数据能更高效指导智能体训练，在AndroidControl和OmniAct基准上分别带来0.46和0.73的性能提升。

使用方法

使用OmniBench需遵循三阶段流程：首先通过DAG拓扑分析选择目标复杂度组合，构建特定能力测试集；随后采用图评估器（OmniEval）进行多维度评估，包括子任务完成率（CR）和逻辑一致性（LC）两个创新指标；最终通过失败分析模块识别智能体短板。基准支持三种输入模态（屏幕截图、可访问树、混合模式），可适配不同架构的智能体。对于开源模型建议提供A11Y元数据辅助推理，闭源模型则推荐使用双帧拼接输入策略以增强时序理解。

背景与挑战

背景概述

OmniBench是由浙江大学、蚂蚁集团等机构的研究团队于2025年提出的一个创新型多维度虚拟智能体评估基准。该数据集针对多模态大语言模型(MLLM)驱动的虚拟智能体在复杂任务执行中的能力评估问题，通过创新的图结构任务合成方法，构建了包含36k个任务的跨平台评估体系。数据集创新性地定义了依赖复杂度、指令复杂度等五维任务复杂度指标，并配套开发了OmniEval多维评估框架，可系统评估智能体在规划、决策等10项核心能力上的表现。

当前挑战

OmniBench主要解决三大挑战：1) 传统基准任务复杂度不可控且固定，难以适应智能体能力发展；2) 人工标注成本高昂导致场景覆盖有限；3) 粗粒度评估无法反映智能体多维度能力差异。在构建过程中面临图结构任务合成、自动化评估函数生成等技术难点，需解决任务意图保持、语义一致性验证等关键问题。数据集特别揭示了当前智能体在图结构任务处理（仅20.5%成功率）和长指令理解（32.2分vs人类66.1分）等维度存在显著能力瓶颈。

常用场景

经典使用场景

OmniBench数据集在虚拟代理能力评估领域具有广泛的应用场景，其最经典的用途在于为多模态大语言模型（MLLM）驱动的虚拟代理提供多维度的基准测试。通过其自动生成的图结构任务，研究者能够系统评估代理在规划、决策、指令理解等10项核心能力上的表现。该数据集特别适用于需要精确控制任务复杂度的实验设计，例如分析代理在依赖复杂度、分支复杂度等五维指标下的性能变化规律。

衍生相关工作

基于OmniBench的图结构评估范式，研究者已衍生出多项创新工作：CRAB采用手工构建的任务图进行跨环境代理评估；TASKBENCH开发了简化的图结构指标用于任务自动化评测；Aguvis等视觉代理通过引入OmniBench的依赖识别方法改进了GUI操作逻辑。数据集还启发了对任务意图嵌入、表达顺序鲁棒性等新研究方向的开创性探索，相关成果发表在ICML、CVPR等顶级会议上。

数据集最近研究