Agent-X

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/Tajamul21/Agent-X

下载链接

链接失效反馈

官方服务：

资源简介：

Agent-X是一个评估视觉中心LLM代理在现实世界中深度推理和工具使用技能的基准。它包括828个由人类编写的任务，这些任务具有隐含的工具使用和序列规划要求，涵盖了网络浏览、监控、自动驾驶、体育和数学推理等六个领域。每个任务都与真实图像、多图像比较或视频片段配对，并附带文本说明，以模拟现实世界场景的视觉复杂性。

创建时间：

2025-05-27

原始信息汇总

Agent-X 数据集概述

数据集简介

Agent-X 是一个用于评估视觉中心LLM代理在真实场景中深度推理和工具使用能力的基准测试。主要特点包括：

真实多步骤任务：包含828个人工编写的任务，涵盖6个领域（网页浏览、监控、自动驾驶、体育、数学推理等）
实际部署工具：提供包含感知、网页、操作、数学和数据处理工具的评价平台
多样化多模态上下文：每个任务都配有真实图像、多图像比较或视频片段

数据集结构

数据字段

files：文件路径列表（通常是图像、图表等视觉输入）
query：关于图像的自然语言问题
query_type：查询类别（如"Objective"或"Subjective"）
tool_metadata：可用工具的元数据字典
reasoning_steps：推理过程的中间步骤列表
final_answer：最终答案（包括值和理由）

数据示例

json { "file_path": "AgentX_176.jpg", "query": "Which color line shows the greatest overall change...", "query_type": "Objective", "tool_metadata": {...}, "reasoning_steps": [...], "final_answer": { "value": "Cornflower, 30", "justification": "The line chart was analyzed..." } }

数据集统计

总查询数：828个
覆盖6个视觉中心环境
包含工具使用频率、步骤数和任务分布的详细统计

使用方式

数据访问

shell pip install huggingface_hub huggingface-cli download --repo-type dataset Tajamul21/Agent-X

使用案例

用于评估大型多模态模型的推理能力

数据集创建

采用半自动化流程创建：

LMM生成候选查询
人工注释者优化查询
LMM生成逐步推理轨迹
人工审核逻辑一致性和正确性

评估协议

评估模式

逐步评估（Step-by-Step）
深度推理评估（Deep Reasoning）
结果评估（Outcome）

评估指标

Grounds
Toolp
Toolacc
Factacc
Contexts
Factp
Semacc
Goalacc
Goalacc*
Toolaccs

评估模型

包含开源和闭源模型（如GPT-4o、Gemini-2.5-Pro等）

相关资源

搜集汇总

数据集介绍

构建方式

Agent-X数据集通过半自动化流程构建，结合了大型多模态模型（LMM）的初始查询生成与人工精细化标注的双重优势。该流程首先由LMM基于视觉输入和预设工具集生成候选查询，随后由人类标注者对查询的清晰度和真实性进行优化。优化后的查询再次输入LMM以生成包含工具调用、中间输出和最终答案的逐步推理轨迹，最终由人工审核确保逻辑一致性和答案正确性。这一方法有效平衡了自动化效率与人工精确性，覆盖了网页浏览、监控、自动驾驶等六种真实场景。

特点

Agent-X数据集以其多模态深度推理评估为核心特色，包含828个人工设计的任务，涵盖视觉与文本结合的复杂场景。每个任务均配备真实图像、多图像对比或视频片段，并嵌入隐式工具使用和序列化规划要求。数据集提供丰富的工具元数据，包括感知、网络、数学等五大类工具，要求智能体在推理过程中动态选择并应用合适工具。其结构化数据字段（如推理步骤、最终答案及工具调用记录）为评估模型的多模态交互能力提供了细粒度标准。

使用方法

该数据集可通过HuggingFace平台直接下载，使用`huggingface_hub`库实现便捷加载。研究者可通过分析模型在三种评估模式（逐步执行、深度推理、结果验证）中的表现，量化其在视觉中心任务中的工具使用能力和多模态推理水平。官方GitHub仓库提供了完整的评估协议和基准测试代码，支持以GPT-4或Qwen-15B作为评判标准，通过10项指标全面衡量模型性能。

背景与挑战

背景概述

Agent-X是由Tajamul Ashraf、Amal Saqib等研究人员联合推出的多模态推理基准数据集，旨在评估视觉中心型LLM代理在真实场景中的深度推理与工具使用能力。该数据集构建于2025年前后，覆盖了网页浏览、监控、自动驾驶、体育竞技及数学推理等六大领域，包含828项人工设计的复杂任务，强调多步骤推理与隐式工具调用。其创新性在于整合了真实部署的感知工具与多样化多模态上下文，为智能代理系统在开放环境中的决策能力提供了标准化评估框架，推动了具身智能与多模态推理研究的交叉发展。

当前挑战

该数据集面临的核心挑战主要体现在两方面：在领域问题层面，需解决视觉-语言模型在动态环境中工具选择与序列化决策的耦合难题，例如如何准确关联图表分析任务与数学计算工具的调用时序；在构建过程中，需平衡人工标注的语义精确性与半自动化流水线的扩展效率，特别是在处理视频片段与跨模态指令对齐时，既要保证工具元数据的结构化描述，又要维持视觉上下文与推理步骤的逻辑一致性。此外，评估协议需设计兼顾分步执行验证与整体任务完成度的多维指标，这对基准的鲁棒性提出了更高要求。

常用场景

经典使用场景

在视觉中心的多模态智能体研究领域，Agent-X数据集被广泛用于评估模型在复杂真实场景中的深度推理能力。该数据集通过精心设计的828项多步骤任务，涵盖网络浏览、监控分析、自动驾驶等六大领域，为研究者提供了测试智能体工具调用、序列规划和跨模态理解的标准化平台。其独特的真实工具集成和多样化视觉上下文设置，使得该数据集成为衡量智能体在开放环境中解决实际问题的黄金基准。

解决学术问题

Agent-X有效解决了多模态智能体研究中的关键挑战，包括视觉-语言对齐、工具链动态组合和长程推理等核心问题。通过提供细粒度的推理步骤标注和工具使用记录，该数据集使研究者能够定量分析模型在感知-决策闭环中的薄弱环节。其丰富的视觉情境设置尤其推动了跨模态表征学习领域的发展，为构建具备人类水平环境认知能力的智能体奠定了数据基础。

衍生相关工作

围绕Agent-X已衍生出多项重要研究，包括InternVL系列视觉语言模型的多工具协同框架、Qwen-VL的层次化推理架构，以及Gemini-Pro的端到端任务分解算法。这些工作通过在该数据集上的系统验证，分别推进了工具使用的准确性、多模态理解的深度和复杂任务分解的效率，共同构成了当前视觉智能体研究的核心技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集