OmniBench

Name: OmniBench
Creator: 浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京
Published: 2025-06-10 23:59:38
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://omni-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

OmniBench是一个自生成的跨平台图基准，具有自动化的管道，用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力，我们进一步提出了OmniEval，这是一个多维度评估框架，包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务，跨越20个场景，实现了91%的人类接受率。在图结构数据上训练表明，它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估，揭示了它们在各种能力方面的性能，为未来的进步铺平了道路。

OmniBench is a self-generated cross-platform graph benchmark with an automated pipeline for synthesizing tasks with controllable complexity via subtask composition. To evaluate the diverse capabilities of virtual agents on graph structures, we further propose OmniEval, a multi-dimensional evaluation framework that encompasses subtask-level evaluation, graph-based metrics, and comprehensive tests across 10 capabilities. Our synthetic dataset contains 36,000 graph-structured tasks spanning 20 scenarios, achieving a 91% human acceptance rate. Training on graph-structured data demonstrates that it can guide agents more effectively than manually annotated data. We conducted multi-dimensional evaluations on various open-source and closed-source models, revealing their performance across diverse capabilities and paving the way for future advancements.

提供机构：

浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京

创建时间：

2025-06-10

原始信息汇总

OmniBench数据集概述

基本信息

数据集名称: OmniBench
发布机构: 浙江大学、蚂蚁集团、香港科技大学、南京大学
发布状态: ICML 2025 Oral (top 1%)
数据规模: 36k图结构任务
场景覆盖: 20个不同场景
人类接受率: 91%
任务复杂度: 五维任务复杂度
评估维度: 10个能力维度

核心特点

自动化任务合成: 通过子任务组合自动生成可控复杂度的任务
图结构基准: 采用图结构形式组织任务和评估
多维评估框架: 包含子任务级评估、基于图的指标和10项能力测试
高效数据利用: 相比人工标注数据能更高效指导智能体

任务构成

子任务发现: 从可探索环境中合成简单子任务指令
子任务合成: 迭代合成子任务轨迹和评估函数
任务组合: 自底向上将子任务组合成完整任务
任务验证: 最终验证任务语义有效性

评估体系

评估框架: OmniEval
评估指标:
- 子任务级评估函数
- 两个新颖细粒度指标（图结构任务表现和人类逻辑对齐）
评估范围:
- 12个虚拟智能体（开源和专有模型）
- 10项能力维度全面评估

典型任务案例

任务示例1: 创建PPT文件，保存邮件中的图片并插入，复制本地文本内容到标题框，最后发送文件
任务示例2: 创建PPT文件，插入邮件图片和应用滤镜后的图片，最后发送文件

统计信息

应用分布: 49个应用及其对应类别
步骤分布: 完成子任务和完整任务所需的步骤分布

对比优势

任务维度: 自动任务组合 vs 人工标注
复杂度维度: 五维任务复杂度 vs 单一维度
评估维度: 10能力评估框架 vs 粗粒度评估

搜集汇总

数据集介绍

构建方式

OmniBench采用自生成、跨平台的图结构基准测试框架，通过自动化流水线合成具有可控复杂度的任务。其构建过程分为四个关键阶段：首先通过环境探索和MLLMs交互发现基础子任务；随后采用迭代合成机制优化子任务的执行轨迹和评估函数；接着基于资源依赖关系和任务意图进行图结构任务组合；最后通过语义一致性验证确保任务质量。该框架创新性地引入五维复杂度定义（依赖、指令、知识、层级、分支），通过约束有向无环图（DAG）的合成过程实现任务复杂度的精确控制。

特点

作为首个可扩展的多维虚拟智能体评估基准，OmniBench具备三大核心特征：其一，包含36k个图结构任务，覆盖20个真实场景和49个应用程序，规模达环境基准的40倍；其二，首创五维任务复杂度体系，支持从简单到困难的渐进式评估；其三，集成自动化质量控制系统（交叉验证、意图提取、一致性校验），任务人类接受率达91%。其图结构数据相比人工标注数据能更高效指导智能体训练，在AndroidControl和OmniAct基准上分别带来0.46和0.73的性能提升。

使用方法

使用OmniBench需遵循三阶段流程：首先通过DAG拓扑分析选择目标复杂度组合，构建特定能力测试集；随后采用图评估器（OmniEval）进行多维度评估，包括子任务完成率（CR）和逻辑一致性（LC）两个创新指标；最终通过失败分析模块识别智能体短板。基准支持三种输入模态（屏幕截图、可访问树、混合模式），可适配不同架构的智能体。对于开源模型建议提供A11Y元数据辅助推理，闭源模型则推荐使用双帧拼接输入策略以增强时序理解。

背景与挑战

背景概述

OmniBench是由浙江大学、蚂蚁集团等机构的研究团队于2025年提出的一个创新型多维度虚拟智能体评估基准。该数据集针对多模态大语言模型(MLLM)驱动的虚拟智能体在复杂任务执行中的能力评估问题，通过创新的图结构任务合成方法，构建了包含36k个任务的跨平台评估体系。数据集创新性地定义了依赖复杂度、指令复杂度等五维任务复杂度指标，并配套开发了OmniEval多维评估框架，可系统评估智能体在规划、决策等10项核心能力上的表现。

当前挑战

OmniBench主要解决三大挑战：1) 传统基准任务复杂度不可控且固定，难以适应智能体能力发展；2) 人工标注成本高昂导致场景覆盖有限；3) 粗粒度评估无法反映智能体多维度能力差异。在构建过程中面临图结构任务合成、自动化评估函数生成等技术难点，需解决任务意图保持、语义一致性验证等关键问题。数据集特别揭示了当前智能体在图结构任务处理（仅20.5%成功率）和长指令理解（32.2分vs人类66.1分）等维度存在显著能力瓶颈。

常用场景

经典使用场景

OmniBench数据集在虚拟代理能力评估领域具有广泛的应用场景，其最经典的用途在于为多模态大语言模型（MLLM）驱动的虚拟代理提供多维度的基准测试。通过其自动生成的图结构任务，研究者能够系统评估代理在规划、决策、指令理解等10项核心能力上的表现。该数据集特别适用于需要精确控制任务复杂度的实验设计，例如分析代理在依赖复杂度、分支复杂度等五维指标下的性能变化规律。

衍生相关工作

基于OmniBench的图结构评估范式，研究者已衍生出多项创新工作：CRAB采用手工构建的任务图进行跨环境代理评估；TASKBENCH开发了简化的图结构指标用于任务自动化评测；Aguvis等视觉代理通过引入OmniBench的依赖识别方法改进了GUI操作逻辑。数据集还启发了对任务意图嵌入、表达顺序鲁棒性等新研究方向的开创性探索，相关成果发表在ICML、CVPR等顶级会议上。

数据集最近研究