GeoX-Bench

github2025-11-17 更新2025-11-19 收录

下载链接：

https://github.com/IntMeGroup/GeoX-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

GeoX-Bench数据集包含10,859个全景-卫星图像对，覆盖49个国家的128个城市，以及755,976个精心策划的问答对（其中42,900个用于基准测试，其余用于指令调优）。该数据集整合了CVGlobal、CVUSA、OmniCity、LLMGeo和VIGOR，并重新获取了2024-2025年的图像以确保时间对齐。

The GeoX-Bench dataset contains 10,859 panoramic-satellite image pairs covering 128 cities across 49 countries, along with 755,976 meticulously curated question-answer pairs. Of these, 42,900 pairs are used for benchmark testing, while the remainder are utilized for instruction tuning. This dataset integrates CVGlobal, CVUSA, OmniCity, LLMGeo and VIGOR, and re-acquired images spanning 2024 to 2025 to ensure temporal alignment.

创建时间：

2025-11-17

原始信息汇总

GeoX-Bench 数据集概述

数据集基本信息

名称：GeoX-Bench
规模：10,859个全景-卫星图像对，覆盖49个国家的128个城市
问答对数量：755,976个精心策划的QA对（其中42,900个用于基准测试，其余用于指令调优）
数据来源：合并CVGlobal、CVUSA、OmniCity、LLMGeo和VIGOR数据集，并重新获取2024-2025年图像以确保时间对齐

基准任务

数据集包含七个互补的评估任务：

姿态估计任务

固定位置朝向估计：假设相机位于卫星地图中心的朝向分类
随机位置朝向估计：相机可位于地图任意位置的朝向分类

定位任务

有先验定位：判断地面场景是否位于卫星地图中心裁剪区域内
无先验定位：地面场景可出现在地图任意位置的定位判断

地图内定位任务

地图内相对定位：预测场景在地图内的相对位置区域

跨地图检索任务

中心先验跨地图检索：匹配保证发生在每个地图中心的卫星图块选择
随机跨地图检索：相机可偏离中心位置的候选地图图块选择

数据准备要求

数据获取：需要下载/授权CVGlobal、CVUSA、OmniCity、LLMGeo和VIGOR源数据集
图像规格：北对齐全景图、512×512航空镶嵌图、同步捕获日期
存储结构：在公共根目录下创建本地镜像，并更新Hydra任务配置中的root_dir字段

数据集索引

位置：Dataset_Index/目录包含JSON索引文件
工具：data_sampler.py用于生成不同样本数量的自定义索引
缓存机制：main_closeai.py在output_base/目录下构建dataset_indices_cache.json以确保任务抽取平衡类别

输出格式

所有任务返回结构化JSON格式，包含：

解释字段
方向预测
范围判断
其他任务特定信号

实验复现

配置选择：使用conf/conf_random8_AAAI___.yaml等配置文件复现论文表1中的实验
数据对齐：遵循PDF中图3的预处理流程
指标收集：解析outputs/**/model-task.json文件构建每个任务的准确率表格

搜集汇总

数据集介绍

构建方式

GeoX-Bench数据集通过整合五个权威地理定位数据集构建而成，涵盖CVGlobal、CVUSA、OmniCity、LLMGeo和VIGOR等来源。为确保时空数据的一致性，研究团队重新采集了2024至2025年期间的影像数据，最终形成包含10,859组全景-卫星图像对的基准集合。数据采集严格遵循地理坐标对齐原则，通过北向校准和视场角切片技术实现多源数据的标准化处理，并基于精心设计的采样策略生成了755,976组问答对用于模型训练与评估。

特点

该数据集的核心价值体现在其多任务评估框架的设计上，系统性地覆盖了七类地理空间推理任务。从固定位置与随机位置的朝向估计，到基于先验知识的局部定位与跨地图检索任务，每个任务均通过结构化JSON格式输出标准化评估结果。数据集空间范围横跨49个国家的128个城市，既包含中心对齐的典型场景，也涵盖非中心分布的复杂案例，为评估大模型在真实地理环境中的空间认知能力提供了全面基准。

使用方法

使用者可通过模块化的任务执行系统灵活调用数据集，Hydra配置框架支持快速切换不同模型架构与任务组合。实验流程提供三种运行模式：main.py实现顺序流水线执行，main_pool.py支持GPU资源池化的并行计算，main_closeai.py则针对API模型优化了确定性采样机制。每个任务实例均配备独立的数据加载器和提示词模板，预测结果将自动归档至时间戳目录，并遵循标准化JSON schema以保障评估指标的可复现性。

背景与挑战

背景概述

GeoX-Bench作为AAAI 2026会议收录的前沿跨视角地理定位基准数据集，由多机构研究团队于2024至2025年间联合构建。该数据集整合CVGlobal、CVUSA、OmniCity等五大权威地理空间数据集，涵盖49个国家128个城市的10,859组全景-卫星图像对及75万组高质量问答数据。其核心目标在于系统评估大语言模型在跨模态地理空间推理中的表现，通过七类结构化任务推动视觉-语言模型在三维空间感知领域的发展，为自动驾驶、无人机导航等现实应用提供理论支撑。

当前挑战

跨视角地理定位需克服视觉模态差异与空间坐标转换的双重难题：全景图像与卫星视图间存在透视变形、光照变化和尺度不一致等固有差异；构建过程中需确保数万组图像对的时间同步性与地理坐标精确对齐，涉及多源数据标准化与坐标系统一化处理。此外，七类任务设计需平衡定位精度与计算效率，其中随机位置朝向估计与无先验跨图检索任务对模型的空间推理能力提出极高要求。

常用场景

解决学术问题

该数据集有效解决了地理空间人工智能领域三大核心难题：跨模态语义对齐的度量标准缺失问题，通过七类互补任务构建了系统化评估体系；动态地理场景下的时空一致性建模难题，借助2024-2025年更新的卫星影像确保了数据时效性；以及多任务联合评估的标准化困境，其模块化任务框架为不同模型能力维度提供了可比性基准。这些突破使得精准评估LMMs在地理推理中的实际性能成为可能。

衍生相关工作

该数据集的发布催生了系列创新性研究，例如基于Hydra配置管理的可复现实验范式已被多个跨模态定位项目采纳；其提出的平衡采样策略在LLMGeo等后续工作中发展为动态课程学习机制。特别值得注意的是，任务模板抽象层设计启发了GeoGLUE基准的构建，而CloseAI客户端架构则为地理大模型的分布式评估提供了重要参考，这些衍生工作共同推动了地理空间多模态学习的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集