Agent-X

github2025-06-02 更新2025-06-03 收录

下载链接：

https://github.com/mbzuai-oryx/Agent-X

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-X是一个用于评估视觉中心LLM代理在真实世界环境中深度推理和工具使用技能的基准。它包含828个由人类编写的任务，涵盖六个领域，如网页浏览、监控、自动驾驶、体育和数学推理。每个任务都需要明确的逐步决策和明智的工具使用。

Agent-X is a benchmark designed to evaluate the deep reasoning and tool-use capabilities of vision-centric LLM agents in real-world scenarios. It consists of 828 human-written tasks spanning six domains, including web browsing, monitoring, autonomous driving, sports, and mathematical reasoning. Each task demands explicit step-by-step decision-making and prudent tool utilization.

创建时间：

2025-06-02

原始信息汇总

Agent-X 数据集概述

数据集基本信息

名称: Agent-X
发布日期: 2025-05-22
论文标题: Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks
论文地址: https://arxiv.org/abs/2505.24876
数据集地址:
- Hugging Face: https://huggingface.co/datasets/Tajamul21/Agent-X
- 下载地址: https://github.com/Tajamul21/Agent-X-Benchmark/releases/download/v0.1.0/agent-X_dataset.zip

数据集简介

Agent-X 是一个用于评估视觉中心 LLM 代理在真实场景中深度推理和工具使用能力的基准测试。主要特点包括：

真实多步骤任务: 包含 828 个人工编写的任务，涵盖六个领域（网页浏览、监控、自动驾驶、体育、数学推理等）。
真实部署工具: 提供感知、网页、操作、数学和数据处理等多种工具。
多样化多模态上下文: 每个任务都配有真实图像、多图像比较或视频片段以及文本指令。

数据集统计

任务数量: 828
领域分布: 六个视觉中心环境
工具使用频率: 详细统计见数据统计图
步骤数量: 多步骤任务

数据集生成流程

采用半自动化流程生成任务：

LMM 基于视觉输入和可用工具集生成候选查询。
人工注释者优化查询的清晰度和真实性。
LMM 生成逐步推理轨迹，包括工具调用、中间输出和最终答案。
人工审查逻辑一致性和正确性。

评估协议

评估分为三种模式：

逐步评估: 评估代理执行单个推理步骤的能力。
深度推理评估: 评估完整推理轨迹的连贯性和逻辑一致性。
结果评估: 测量代理的整体任务解决性能。

引用信息

bibtex @misc{ashraf2025agentxevaluatingdeepmultimodal, title={Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks}, author={Tajamul Ashraf and Amal Saqib and Hanan Ghani and Muhra AlMahri and Yuhao Li and Noor Ahsan and Umair Nawaz and Jean Lahoud and Hisham Cholakkal and Mubarak Shah and Philip Torr and Fahad Shahbaz Khan and Rao Muhammad Anwer and Salman Khan}, year={2025}, eprint={2505.24876}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24876}, }

搜集汇总

数据集介绍

构建方式

Agent-X数据集通过半自动化流程构建，结合了大型多模态模型（LMM）的生成能力与人工标注的精确性。首先，LMM基于视觉输入和可用工具集生成候选查询，随后由人类标注者对查询进行细化和优化，确保任务的真实性和清晰度。接着，LMM生成包含工具调用、中间输出和最终答案的逐步推理轨迹，并由人工审核逻辑一致性和正确性。这一流程确保了数据集的多样性和高质量。

特点

Agent-X数据集以其真实性和多模态复杂性著称，包含828个人工编写的任务，覆盖网页浏览、监控、自动驾驶等六大领域。每个任务均需多步推理和工具使用，且配有真实图像、视频片段或文本指令，模拟现实场景的视觉复杂性。数据集还提供了丰富的工具集，包括感知、网络、操作等工具，要求智能体在每一步选择合适的工具进行推理。

使用方法

Agent-X数据集的使用方法包括三个主要评估模式：逐步评估、深度推理评估和结果评估。逐步评估关注智能体在每一步的工具使用和推理能力；深度推理评估强调整个推理轨迹的逻辑一致性；结果评估则验证最终答案的正确性。用户可通过Hugging Face平台获取数据集，并利用提供的评估脚本对模型性能进行量化分析。数据集还支持多模态输入，适用于视觉中心任务的智能体开发和评估。

背景与挑战

背景概述

Agent-X数据集由Tajamul Ashraf、Amal Saqib等学者于2025年提出，旨在评估视觉中心多模态大模型在真实场景中的深度推理与工具使用能力。该数据集包含828个跨六领域（如网页浏览、自动驾驶）的人类标注任务，强调多步骤推理与混合模态（图像、视频、文本）交互。其创新性在于突破了传统单轮合成查询的局限，通过半自动化流程生成真实任务链，并由MBZUAI、UCF等机构联合验证，为智能体决策研究提供了首个系统性多模态评估基准，推动了具身智能与工具学习领域的发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决视觉-语言模型在复杂任务链中的工具选择与序列决策瓶颈，现有顶级模型（如GPT-4o）成功率不足50%；在构建层面，需平衡自动化生成效率与人工校验质量，确保多模态任务（如视频时序分析）的物理逻辑一致性，同时处理真实工具API的动态适配问题。半自动标注流程中，视觉上下文与隐式工具需求的精确对齐成为关键难点。

常用场景

经典使用场景

在视觉为中心的智能体任务研究中，Agent-X数据集被广泛用于评估多模态大模型在复杂环境下的深度推理能力。该数据集通过涵盖网页浏览、自动驾驶、监控等六个领域的真实任务，为研究者提供了一个全面测试模型多步推理和工具使用能力的平台。其独特的评估模式，包括逐步推理、深度逻辑一致性检验和最终结果验证，使得该数据集成为衡量智能体性能的黄金标准。

实际应用

在实际应用层面，Agent-X数据集为开发具有实际部署价值的视觉智能体系统提供了重要参考。其涵盖的领域如自动驾驶决策支持、智能监控分析、体育赛事理解等，直接对应着产业界对高级视觉理解能力的迫切需求。数据集中的工具使用评估框架也为实际系统中模块化组件的集成提供了方法论指导。

衍生相关工作

基于Agent-X数据集，研究者们已经开展了一系列重要工作。其中包括改进视觉语言模型的工具调用策略、开发新型的多模态推理架构，以及设计更精细的评估指标。该数据集还促进了开源社区中多个视觉智能体基准测试系统的开发，推动了整个领域向更实用、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集