five

OmniBench

收藏
arXiv2025-06-10 更新2025-06-12 收录
下载链接:
https://omni-bench.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
OmniBench是一个自生成的跨平台图基准,具有自动化的管道,用于通过子任务组合合成可控制复杂性的任务。为了评估虚拟代理在图上的多样化能力,我们进一步提出了OmniEval,这是一个多维度评估框架,包括子任务级别评估、基于图的指标和跨10个能力的全面测试。我们的合成数据集包含36k个图结构任务,跨越20个场景,实现了91%的人类接受率。在图结构数据上训练表明,它可以比手动注释数据更有效地指导代理。我们对各种开源和闭源模型进行了多维评估,揭示了它们在各种能力方面的性能,为未来的进步铺平了道路。
提供机构:
浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京
创建时间:
2025-06-10
原始信息汇总

OmniBench数据集概述

基本信息

  • 数据集名称: OmniBench
  • 发布机构: 浙江大学、蚂蚁集团、香港科技大学、南京大学
  • 发布状态: ICML 2025 Oral (top 1%)
  • 数据规模: 36k图结构任务
  • 场景覆盖: 20个不同场景
  • 人类接受率: 91%
  • 任务复杂度: 五维任务复杂度
  • 评估维度: 10个能力维度

核心特点

  1. 自动化任务合成: 通过子任务组合自动生成可控复杂度的任务
  2. 图结构基准: 采用图结构形式组织任务和评估
  3. 多维评估框架: 包含子任务级评估、基于图的指标和10项能力测试
  4. 高效数据利用: 相比人工标注数据能更高效指导智能体

任务构成

  • 子任务发现: 从可探索环境中合成简单子任务指令
  • 子任务合成: 迭代合成子任务轨迹和评估函数
  • 任务组合: 自底向上将子任务组合成完整任务
  • 任务验证: 最终验证任务语义有效性

评估体系

  • 评估框架: OmniEval
  • 评估指标:
    • 子任务级评估函数
    • 两个新颖细粒度指标(图结构任务表现和人类逻辑对齐)
  • 评估范围:
    • 12个虚拟智能体(开源和专有模型)
    • 10项能力维度全面评估

典型任务案例

  • 任务示例1: 创建PPT文件,保存邮件中的图片并插入,复制本地文本内容到标题框,最后发送文件
  • 任务示例2: 创建PPT文件,插入邮件图片和应用滤镜后的图片,最后发送文件

统计信息

  • 应用分布: 49个应用及其对应类别
  • 步骤分布: 完成子任务和完整任务所需的步骤分布

对比优势

  • 任务维度: 自动任务组合 vs 人工标注
  • 复杂度维度: 五维任务复杂度 vs 单一维度
  • 评估维度: 10能力评估框架 vs 粗粒度评估
搜集汇总
数据集介绍
main_image_url
构建方式
OmniBench采用自生成、跨平台的图结构基准测试框架,通过自动化流水线合成具有可控复杂度的任务。其构建过程分为四个关键阶段:首先通过环境探索和MLLMs交互发现基础子任务;随后采用迭代合成机制优化子任务的执行轨迹和评估函数;接着基于资源依赖关系和任务意图进行图结构任务组合;最后通过语义一致性验证确保任务质量。该框架创新性地引入五维复杂度定义(依赖、指令、知识、层级、分支),通过约束有向无环图(DAG)的合成过程实现任务复杂度的精确控制。
特点
作为首个可扩展的多维虚拟智能体评估基准,OmniBench具备三大核心特征:其一,包含36k个图结构任务,覆盖20个真实场景和49个应用程序,规模达环境基准的40倍;其二,首创五维任务复杂度体系,支持从简单到困难的渐进式评估;其三,集成自动化质量控制系统(交叉验证、意图提取、一致性校验),任务人类接受率达91%。其图结构数据相比人工标注数据能更高效指导智能体训练,在AndroidControl和OmniAct基准上分别带来0.46和0.73的性能提升。
使用方法
使用OmniBench需遵循三阶段流程:首先通过DAG拓扑分析选择目标复杂度组合,构建特定能力测试集;随后采用图评估器(OmniEval)进行多维度评估,包括子任务完成率(CR)和逻辑一致性(LC)两个创新指标;最终通过失败分析模块识别智能体短板。基准支持三种输入模态(屏幕截图、可访问树、混合模式),可适配不同架构的智能体。对于开源模型建议提供A11Y元数据辅助推理,闭源模型则推荐使用双帧拼接输入策略以增强时序理解。
背景与挑战
背景概述
OmniBench是由浙江大学、蚂蚁集团等机构的研究团队于2025年提出的一个创新型多维度虚拟智能体评估基准。该数据集针对多模态大语言模型(MLLM)驱动的虚拟智能体在复杂任务执行中的能力评估问题,通过创新的图结构任务合成方法,构建了包含36k个任务的跨平台评估体系。数据集创新性地定义了依赖复杂度、指令复杂度等五维任务复杂度指标,并配套开发了OmniEval多维评估框架,可系统评估智能体在规划、决策等10项核心能力上的表现。
当前挑战
OmniBench主要解决三大挑战:1) 传统基准任务复杂度不可控且固定,难以适应智能体能力发展;2) 人工标注成本高昂导致场景覆盖有限;3) 粗粒度评估无法反映智能体多维度能力差异。在构建过程中面临图结构任务合成、自动化评估函数生成等技术难点,需解决任务意图保持、语义一致性验证等关键问题。数据集特别揭示了当前智能体在图结构任务处理(仅20.5%成功率)和长指令理解(32.2分vs人类66.1分)等维度存在显著能力瓶颈。
常用场景
经典使用场景
OmniBench数据集在虚拟代理能力评估领域具有广泛的应用场景,其最经典的用途在于为多模态大语言模型(MLLM)驱动的虚拟代理提供多维度的基准测试。通过其自动生成的图结构任务,研究者能够系统评估代理在规划、决策、指令理解等10项核心能力上的表现。该数据集特别适用于需要精确控制任务复杂度的实验设计,例如分析代理在依赖复杂度、分支复杂度等五维指标下的性能变化规律。
衍生相关工作
基于OmniBench的图结构评估范式,研究者已衍生出多项创新工作:CRAB采用手工构建的任务图进行跨环境代理评估;TASKBENCH开发了简化的图结构指标用于任务自动化评测;Aguvis等视觉代理通过引入OmniBench的依赖识别方法改进了GUI操作逻辑。数据集还启发了对任务意图嵌入、表达顺序鲁棒性等新研究方向的开创性探索,相关成果发表在ICML、CVPR等顶级会议上。
数据集最近研究
最新研究方向
近年来,OmniBench数据集在虚拟代理能力评估领域引起了广泛关注。作为首个基于图结构的可扩展多维基准,该数据集通过自动化子任务组合实现了任务复杂度的精确控制,为评估多模态大语言模型(MLLM)在跨平台环境中的表现提供了系统性框架。当前研究热点集中在三个方面:图结构任务对代理规划能力的挑战性评估、任务意图理解对执行效率的影响机制,以及基于多维能力矩阵的代理性能诊断。值得注意的是,该数据集揭示的主流代理在图结构任务中表现欠佳的现象(GPT-4o仅达人类性能的25.6%),直接推动了虚拟代理在长序列推理和跨域知识迁移方面的算法改进。相关研究已被应用于OSWorld、AndroidControl等主流环境,显著提升了代理在真实场景中的任务完成率和逻辑一致性。
相关研究论文
  • 1
    What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities浙江大学, 中国杭州; 蚂蚁集团, 中国杭州; 香港科技大学, 中国香港特别行政区; 南京大学, 中国南京 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作