GEO-Bench-2

Name: GEO-Bench-2
Creator: IBM研究院欧洲分部, 慕尼黑工业大学, 克拉克大学, MBZUAI, 美国宇航局, 欧洲航天局, 亚利桑那州立大学, ServiceNow研究院
Published: 2025-11-20 01:45:02
License: 暂无描述

arXiv2025-11-20 更新2025-11-21 收录

下载链接：

https://huggingface.co

下载链接

链接失效反馈

官方服务：

资源简介：

GEO-Bench-2是由多机构联合构建的综合性地理空间人工智能评估基准，涵盖19个经过严格筛选的开放授权数据集。该基准整合了分类、分割、检测等五大任务类型，数据源覆盖全球七大洲，包含多光谱、SAR、时序等多模态数据，采用TACO标准格式确保机器学习就绪性。数据集通过地理平衡采样和能力分组策略构建，旨在系统评估地理空间基础模型在农业监测、灾害响应等实际场景中的泛化能力，推动通用地理智能技术的发展。

GEO-Bench-2 is a comprehensive geospatial artificial intelligence evaluation benchmark jointly constructed by multiple institutions, covering 19 rigorously curated open-licensed datasets. This benchmark integrates five major task types including classification, segmentation, detection and others. Its data sources span all seven continents across the globe, and include multi-modal data such as multispectral imagery, SAR data and time-series data, adopting the TACO standard format to ensure machine learning readiness. The dataset is constructed via geographic balanced sampling and capability grouping strategies, aiming to systematically evaluate the generalization capabilities of geospatial foundation models in practical scenarios such as agricultural monitoring and disaster response, and promote the development of general geospatial intelligence technologies.

提供机构：

IBM研究院欧洲分部, 慕尼黑工业大学, 克拉克大学, MBZUAI, 美国宇航局, 欧洲航天局, 亚利桑那州立大学, ServiceNow研究院

创建时间：

2025-11-20

搜集汇总

数据集介绍

构建方式

在遥感人工智能领域，GEO-Bench-2通过精心筛选19个开放许可数据集构建了综合性评估框架。这些数据集覆盖分类、分割、回归、目标检测与实例分割五大任务，采用地理平衡划分策略确保样本空间代表性。所有数据均遵循TACO规范进行统一格式化，通过最大2万个分类样本与4千个像素级任务样本的子采样控制计算成本，实现了FAIR原则下的机器学习就绪状态。

使用方法

用户可通过集成TerraTorch工具链实现端到端模型适配，遵循预设的超参数优化协议进行16轮贝叶斯搜索。评估流程要求对验证集最优配置进行5次重复训练以消除随机性，并严格规范多模态数据处理策略：光学与雷达数据采用波段波长匹配原则，多时序输入通过嵌入维度平均实现特征融合。最终通过标准化指标与分层自助聚合算法生成能力维度排名，支持用户在交互式排行榜上进行针对性模型能力分析。

背景与挑战

背景概述

随着地球观测技术的飞速发展，地理空间基础模型正成为遥感分析的核心工具。GEO-Bench-2由IBM研究院、慕尼黑工业大学等机构联合开发，于2025年正式发布，旨在解决地理空间人工智能领域长期缺乏标准化评估框架的问题。该数据集通过整合19个开放许可的多模态地理空间数据集，构建了覆盖分类、分割、检测等任务的综合评估体系，其提出的“能力组”概念首次实现了对模型在分辨率、波段、时序等维度特性的量化评估，为地理空间智能的标准化发展奠定了基石。

当前挑战

该数据集致力于应对地理空间基础模型在泛化性与专业性之间的核心矛盾。在领域问题层面，需解决多模态数据融合、跨传感器适应、时空动态建模等复杂挑战，例如在农业监测中需同时处理光学与雷达数据，在灾害响应中需平衡空间精度与时间频率。构建过程中面临三大难题：一是全球地理分布不均衡导致模型泛化能力受限，二是多任务评估需统一度量标准与计算成本控制，三是开放许可数据稀缺性制约了检测等高阶任务的覆盖范围。

常用场景

经典使用场景

在地球观测领域，GEO-Bench-2作为综合性评估框架，其经典使用场景聚焦于系统化评估地理空间基础模型在多样化任务中的性能表现。该框架通过整合19个开放许可数据集，覆盖分类、分割、回归、目标检测及实例分割等核心任务，构建了标准化的能力评估体系。研究人员能够依据模型在特定能力组（如分辨率、波段、时序特征）中的表现进行精准排名，从而为模型选择提供科学依据。

解决学术问题

该数据集有效解决了地理空间人工智能领域缺乏标准化评估协议的关键学术问题。通过定义九大重叠能力组，突破了传统单一聚合指标的局限，使研究者能够深入解析模型在特定维度上的优势与不足。其实验结果揭示了不同模型架构的专长特性：基于自然图像预训练的模型在高分辨率任务中表现卓越，而专门针对地球观测设计的模型则在农业监测、灾害响应等多光谱应用中更具优势，这为模型架构优化提供了明确方向。

实际应用

在实际应用层面，GEO-Bench-2为灾害应急响应、精准农业管理和环境持续监测等关键领域提供了可靠的模型选择依据。其能力分组设计使得用户能够根据具体应用场景的光谱需求、时空分辨率和计算约束，快速匹配最优模型。例如在农作物分类任务中，多光谱依赖型模型相较RGB模型可提升高达10%的准确率，显著增强了遥感技术在粮食安全监测中的实践价值。

数据集最近研究