ThinkGeo

Name: ThinkGeo
Creator: 穆罕默德·本·扎耶德人工智能大学、IBM研究、林雪平大学、澳大利亚国立大学
Published: 2025-05-30 01:59:38
License: 暂无描述

arXiv2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/mbzuai-oryx/ThinkGeo

下载链接

链接失效反馈

官方服务：

资源简介：

ThinkGeo是一个专门为评估大型语言模型（LLMs）驱动的智能体在遥感任务中通过结构化工具使用和多步规划的能力而设计的基准。该数据集包含了436个结构化的智能体任务和311张中到高分辨率的地球观测图像，涵盖了城市规划、灾害评估与变化分析、环境监测、交通分析、航空监测、娱乐基础设施和工业场地分析等多个领域的实际应用场景。数据集的设计目标是促进空间推理和遥感特定任务的评估，要求智能体能够解释光学地球观测图像，计划多步工具使用，并生成地理空间上一致的输出。

ThinkGeo is a benchmark specifically developed to assess the capabilities of large language model (LLM)-driven AI Agents in structured tool utilization and multi-step planning for remote sensing tasks. This dataset includes 436 structured agent tasks and 311 medium-to-high resolution Earth Observation (EO) images, covering a variety of real-world application scenarios such as urban planning, disaster assessment and change analysis, environmental monitoring, traffic analysis, aerial monitoring, recreational infrastructure, and industrial site analysis. The core design objective of this benchmark is to facilitate the evaluation of spatial reasoning and remote sensing-specific task capabilities, requiring AI Agents to interpret optical Earth Observation images, plan multi-step tool usage, and generate geospatially consistent outputs.

提供机构：

穆罕默德·本·扎耶德人工智能大学、IBM研究、林雪平大学、澳大利亚国立大学

创建时间：

2025-05-30

原始信息汇总

ThinkGeo 数据集概述

数据集简介

ThinkGeo 是一个专门用于评估语言模型代理在遥感任务中通过结构化工具使用和逐步推理处理复杂任务的基准测试。该数据集包含人类策划的查询，基于卫星和航空影像，涵盖灾害响应、城市规划、环境监测等多个现实领域。

关键特性

任务规模：包含436个遥感任务
数据领域：城市规划、灾害响应、航空、环境监测等
工具支持：14个可执行工具，模拟真实遥感工作流
评估模式：逐步执行和端到端两种评估模式
评估指标：指令遵循、参数结构、推理步骤和最终准确性

数据集内容

数据来源：中等至高分辨率地球观测影像
任务类型：多步骤代理任务
应用场景：
- 交通分析
- 城市规划
- 灾害评估与变化分析
- 娱乐基础设施
- 环境监测

评估结果

评估模型：GPT-4o、Claude-3、Qwen-2.5、LLaMA-3等
评估维度：
- 工具类型准确性（感知P、操作O、逻辑L）
- 最终答案准确性（Ans.）
- 带图像基础的答案准确性（Ans_I）

获取与使用

下载地址：https://huggingface.co/datasets/MBZUAI/ThinkGeo
技术报告：https://arxiv.org/abs/2505.23752
使用要求：需安装AgentLego、OpenCompass等工具链

引用信息

bibtex @misc{shabbir2025thinkgeoevaluatingtoolaugmentedagents, title={ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks}, author={Akashah Shabbir and Muhammad Akhtar Munir and Akshay Dudhane and Muhammad Umer Sheikh and Muhammad Haris Khan and Paolo Fraccaro and Juan Bernabe Moreno and Fahad Shahbaz Khan and Salman Khan}, year={2025}, eprint={2505.23752}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.23752}, }

搜集汇总

数据集介绍

构建方式

ThinkGeo数据集的构建采用了半自动化的查询生成流程，结合了专家指导和人工标注。首先，从多样化的遥感数据集中精选高质量样本，并由领域专家制定任务特定的指导方针。随后，标注人员手动检查遥感图像，识别相关对象和空间关系，并按照ReAct格式构建自然语言查询。这一过程通过基于OpenAI GPT API的脚本支持，确保生成的查询具有多样性和工具依赖性。最后，所有样本经过专家审核和脚本验证，以确保语义正确性和工具集对齐。

特点

ThinkGeo数据集专注于遥感领域的空间推理任务，包含436个结构化代理任务，覆盖城市规划、灾害评估、环境监测等七大应用领域。其独特之处在于将真实的光学地球观测图像与ReAct风格的注释链和部署工具相结合，支持空间推理和遥感特定任务。数据集还提供了难度标注，根据查询的复杂性和推理步骤数量分为简单和困难两类，便于评估模型在不同复杂度任务上的表现。

使用方法

ThinkGeo数据集的使用方法包括两种评估模式：逐步评估和端到端评估。逐步评估关注指令遵循、工具选择、参数格式化和多步推理等中间阶段，而端到端评估则测量最终答案的正确性。研究人员可以利用该数据集评估大型语言模型代理在遥感任务中的工具使用能力和空间推理能力。数据集还提供了详细的错误分析工具，帮助识别模型在规划和格式相关错误上的表现差异。

背景与挑战

背景概述

ThinkGeo数据集由Mohamed bin Zayed人工智能大学、IBM研究院等机构的研究团队于2025年提出，旨在填补遥感领域工具增强型智能体评估的空白。该数据集包含436个结构化任务，覆盖城市规划、灾害评估、环境监测等七大应用场景，并整合311幅中高分辨率光学遥感影像。作为首个专注于空间推理的遥感智能体基准，ThinkGeo通过ReAct式交互框架和14种专业工具集，为评估大语言模型在复杂地理空间任务中的多步规划能力提供了标准化测试平台。其创新性地将真实对地观测数据与工具链执行追踪相结合，显著推动了地理空间人工智能在灾害响应、基础设施分析等关键领域的发展。

当前挑战

ThinkGeo面临的核心挑战体现在两个维度：在领域问题层面，遥感任务需要处理米级空间精度、地理坐标转换和多时相影像分析等专业需求，现有通用智能体在单位感知和空间关系推理上存在显著差距；在构建过程中，研究团队需克服多源影像标注一致性、工具参数规范化及复杂查询的语义 grounding 等难题。具体表现为：1) 42%的任务需要同时调用3种以上工具，导致智能体出现工具选择错误和参数格式混乱；2) 标注阶段需人工验证每个推理步骤的几何一致性，平均单任务耗时达1.2小时；3) 开放模型在变更检测等专业工具上的错误率高达67%，暴露出现有智能体在领域适应性方面的局限。

常用场景

经典使用场景

ThinkGeo数据集在遥感任务评估中展现出卓越的适用性，尤其在需要多工具协同与空间推理的复杂场景中表现突出。该数据集通过436个结构化任务，覆盖了城市规划、灾害评估、环境监测等七大领域，为研究者提供了一个全面评估工具增强型LLM代理能力的平台。其ReAct风格的交互链设计，使得模型能够在卫星或航空影像的背景下，执行从物体检测到变化分析的多步骤推理，极大地丰富了遥感领域代理评估的深度与广度。

实际应用

在实际应用中，ThinkGeo支持了从城市基础设施分析到灾害响应的多种遥感任务。例如，在洪水灾害评估中，代理可通过组合物体检测、区域属性和计算工具，准确统计受灾区域内房屋和车辆的数量；在交通分析中，则能通过多工具链完成车辆检测、流量统计和距离测量等复杂操作。这些应用显著提升了遥感数据分析的自动化水平和决策支持能力。

衍生相关工作

ThinkGeo的推出催生了一系列相关研究，包括改进型遥感代理架构和评估方法。基于该数据集，研究者开发了更强大的视觉-语言模型集成方案，如增强型ChangeDetection工具和SegmentObjectPixels模块。同时，其评估协议启发了后续工作对工具调用可靠性和参数准确性的更精细度量，推动了整个领域向执行级评估方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集