OpenEarthAgent

Name: OpenEarthAgent
Creator: Mohamed Bin Zayed University of Artificial Intelligence
Published: 2026-02-20 19:32:34
License: 暂无描述

Hugging Face2026-02-20 更新2026-02-21 收录

下载链接：

https://huggingface.co/datasets/MBZUAI/OpenEarthAgent

下载链接

链接失效反馈

官方服务：

资源简介：

OpenEarthAgent 数据集是一个大规模、工具增强的地理空间推理语料库，旨在训练和评估多模态代理在结构化、多步地球观测（EO）任务上的能力。与传统专注于感知（分类、检测、分割）的遥感数据集不同，该数据集通过显式的工具交互支持可解释的多步推理，涵盖光学卫星图像、SAR图像、GIS矢量图层、地理参考栅格（GeoTIFF）以及光谱指数图层（如NDVI、NBR、NDBI等）。每个实例包括自然语言查询、多模态地理空间输入、结构化推理轨迹、显式工具调用及参数、中间工具观察结果和最终接地答案。该数据集适用于工具增强的LLM、地理空间推理、多模态代理、可解释的EO工作流程以及具有空间基础的结构化规划等研究方向。数据集统计显示，训练集包含14,538个实例和100,656个推理步骤，平均每个查询6.92步；测试集包含1,169个实例和7,064个推理步骤，平均每个查询6.04步，整个语料库的总推理步骤超过107K结构化思维-动作-观察转换。

The OpenEarthAgent dataset is a large-scale, tool-augmented geospatial reasoning corpus designed to train and evaluate multimodal agents on structured, multi-step Earth Observation (EO) tasks. Unlike traditional remote sensing datasets that focus on perception tasks such as classification, detection, and segmentation, this corpus supports interpretable multi-step reasoning via explicit tool interactions, covering optical satellite imagery, SAR imagery, GIS vector layers, georeferenced rasters (GeoTIFF), and spectral index layers (e.g., NDVI, NBR, NDBI, etc.). Each instance consists of a natural language query, multimodal geospatial inputs, structured reasoning trajectories, explicit tool calls and their corresponding parameters, intermediate tool observations, and final grounded answers. This dataset is applicable to research directions such as tool-augmented LLMs, geospatial reasoning, multimodal agents, interpretable EO workflows, and spatially grounded structured planning. Dataset statistics show that the training split contains 14,538 instances and 100,656 reasoning steps, averaging 6.92 steps per query; the test split contains 1,169 instances and 7,064 reasoning steps, averaging 6.04 steps per query, with the total reasoning steps across the entire corpus exceeding 107K structured thought-action-observation transitions.

提供机构：

Mohamed Bin Zayed University of Artificial Intelligence

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在遥感与地理信息科学领域，数据集的构建往往聚焦于单一感知任务，而OpenEarthAgent数据集则开创性地采用工具增强的推理框架进行系统构建。该数据集通过整合多模态地理空间数据，包括光学与合成孔径雷达影像、地理信息系统矢量图层、地理参考栅格数据及光谱指数图层，为每个实例精心设计了结构化的推理轨迹。构建过程强调显式的工具调用与参数传递，并记录中间观测结果，最终形成从自然语言查询到空间锚定答案的完整工作流，从而支持可解释的多步骤地理空间推理。

使用方法

该数据集适用于工具增强大语言模型、地理空间推理及多模态智能体等前沿研究方向。使用者可依据数据集提供的自然语言查询与多模态输入，模拟智能体执行结构化规划与空间锚定的工作流程。通过解析数据集中记录的显式工具调用序列、参数及中间观测，研究者能够训练或评估模型在复杂地球观测任务中的多步骤推理能力，进而推动可解释地理空间工作流与智能体决策机制的发展。

背景与挑战

背景概述

随着地球观测技术的飞速发展，遥感数据呈现出多模态、高维度与大规模的特点，传统以感知为核心的数据集难以支撑复杂的空间推理任务。OpenEarthAgent数据集应运而生，由研究团队于近年构建，旨在推动多模态智能体在结构化、多步骤地球观测任务中的发展。该数据集聚焦于工具增强的地理空间推理，整合光学卫星影像、合成孔径雷达影像、地理信息系统矢量层及光谱指数层等多源数据，通过自然语言查询引导显式的工具调用与参数交互，形成可解释的推理轨迹。其核心研究问题在于如何实现地理空间信息的语义理解与多步骤规划，为工具增强大语言模型、可解释遥感工作流等前沿方向提供了关键基准，显著提升了地理空间人工智能的推理能力与透明度。

当前挑战

OpenEarthAgent数据集致力于解决地理空间多模态推理的复杂问题，其核心挑战在于如何将异构遥感数据与自然语言指令深度融合，以实现精确的空间语义对齐与多步骤规划。具体而言，数据集构建需克服多源数据时空配准、工具调用逻辑的标准化定义以及推理轨迹的自动化标注等难题；同时，在应用层面，模型需应对长序列工具交互中的误差累积、跨模态特征的不确定性建模以及地理空间上下文的动态演化等挑战，这些因素共同制约着智能体在实际地球观测场景中的可靠性与泛化能力。

常用场景

经典使用场景

在遥感与地球观测领域，传统数据集多聚焦于感知任务，而OpenEarthAgent数据集则开创性地构建了一个工具增强的地理空间推理平台。其经典使用场景在于训练和评估多模态智能体，使其能够处理结构化的多步骤地球观测任务。通过整合光学卫星影像、合成孔径雷达图像、地理信息系统矢量图层以及多种光谱指数层，该数据集引导智能体执行从自然语言查询到最终答案的显式推理轨迹，推动了地理空间分析从感知向认知决策的演进。

解决学术问题

该数据集有效解决了地理空间人工智能中几个核心学术问题。它突破了传统遥感数据仅关注分类、检测与分割的局限，将研究重心转向可解释的多步骤推理过程。通过提供结构化的思维-行动-观察转换序列，数据集支持工具增强的大型语言模型、多模态智能体以及具有空间基础的结构化规划等前沿方向的研究，为地理空间工作流的透明化和智能化奠定了数据基础。

实际应用

在实际应用层面，OpenEarthAgent数据集为构建自动化地球观测分析系统提供了关键支撑。基于其训练的智能体能够理解复杂的自然语言指令，并调用专业工具链对多源地理空间数据进行协同分析，可应用于环境监测、灾害评估、城市规划与农业管理等场景。这种能力使得非专业用户也能通过直观的交互方式获取深度的地理洞察，显著提升了地球观测技术的可及性与决策效率。

数据集最近研究