EarthWhere
收藏github2025-10-15 更新2025-10-16 收录
下载链接:
https://github.com/UCSC-VLAA/EarthWhere
下载链接
链接失效反馈官方服务:
资源简介:
EarthWhere是一个视觉语言基准测试,用于图像地理位置识别,旨在探究模型的推理过程。它包含810张全球分布的图像,涵盖两个互补任务:WhereCountry(500个国家级多项选择题,包含全景图像)和WhereStreet(310个街道级开放世界案例,可能涉及多步推理和可选网络搜索)。该基准测试包括人类验证的关键线索注释和过程感知评估,通过Shapley重加权思维评分来评估每个线索的边际贡献。
EarthWhere is a visual-language benchmark for image geolocation recognition, designed to investigate the reasoning capabilities of models. It contains 810 globally distributed images, covering two complementary tasks: WhereCountry, which includes 500 national-level multiple-choice questions involving panoramic images, and WhereStreet, which comprises 310 street-level open-world cases that may require multi-step reasoning and optional web searches. This benchmark features human-validated key clue annotations and process-aware evaluation, which evaluates the marginal contribution of each clue via Shapley reweighted thinking scores.
创建时间:
2025-10-10
原始信息汇总
EarthWhere 数据集概述
数据集简介
EarthWhere 是一个视觉-语言基准测试数据集,专门用于图像地理位置识别研究。该数据集旨在探究模型不仅能够预测什么,还能够如何进行推理。
数据集构成
- WhereCountry:包含500个多项选择题,涵盖国家级别的全景图像
- WhereStreet:包含310个街道级别的开放世界案例,可能涉及多步推理和可选网络搜索
评估指标
- 坐标准确率:使用 Acc@k 指标
- 分层文本定位:反映模型正确识别的粒度级别
数据集特色
- 包含人工验证的关键线索标注
- 采用过程感知评估方法:基于Shapley重加权思维评分,根据每个线索的边际贡献分配积分
- 覆盖全球分布的810张图像
模型性能
在评估的13个领先视觉语言模型中:
- 最佳模型 Gemini-2.5-pro 总体准确率为56.32%
- 在具有挑战性的子集上准确率分别为6.37%和26.38%
重要发现
- 更深层次的思考和检索在国家级别任务中并不总是有帮助
- 网络访问在更丰富的街道级别案例中往往有帮助
- 模型在不同来源间表现出区域偏见
数据来源
特别感谢 GeoPeter 允许使用其视频素材进行评估。对于其他渠道内容,正在联系所有者获取必要许可。
贡献者
来自加州大学圣克鲁兹分校 VLAA 研究团队,包括 Zhaofang Qian、Hardy Chen、Zeyu Wang 等多位研究人员。
搜集汇总
数据集介绍

构建方式
在视觉语言模型地理定位研究领域,EarthWhere数据集通过精心设计的双任务架构构建而成。该数据集收录了全球范围内810张地理图像,其中WhereCountry任务包含500个国家级别的多选全景图像,WhereStreet任务则涵盖310个需要多步推理的街景开放性问题。构建过程中采用人工验证的关键线索标注机制,并引入基于Shapley值的思维评分体系,确保每个线索的边际贡献得到科学量化。这种多尺度、多模态的数据构建方式为模型地理推理能力评估提供了坚实基础。
特点
EarthWhere数据集展现出三大核心特征:其评估体系同时涵盖坐标精度与层次化文本定位,能准确反映模型在答案路径上的局部进展;数据集设计包含过程感知评估机制,通过Shapley加权思维评分深入解析模型的推理过程;基准测试结果揭示出前沿模型的显著局限性,最佳模型Gemini-2.5-pro整体准确率仅达56.32%,在挑战性子集上的表现更为薄弱。这些特征共同构成了该数据集在衡量视觉语言模型地理定位能力方面的独特价值。
使用方法
该数据集支持灵活的实验配置与系统化评估流程。研究者可通过修改样本代码分别执行WhereCountry与WhereStreet子任务的本地推理,使用eval_country.sh和eval_street.sh脚本启动相应评估。对于完整基准测试,直接运行eval_all.sh即可同步评估两个子任务,所有结果将统一保存至results/overall目录。这种模块化设计既支持针对特定地理尺度的深入研究,也便于进行跨任务性能对比分析,为视觉语言模型的地理推理能力评估提供标准化协议。
背景与挑战
背景概述
随着视觉语言模型在跨模态理解任务中的快速发展,地理空间定位能力成为衡量模型综合推理水平的重要维度。EarthWhere基准数据集由加州大学圣克鲁兹分校VLAA研究团队于2024年创建,旨在通过810幅全球分布图像构建双任务评估框架,涵盖国家层级的WhereCountry任务与街道层级的WhereStreet任务。该数据集通过坐标精度与层次化文本定位的双重评估机制,系统性地揭示了模型在视觉地理推理中的认知边界,为多模态人工智能的地理空间理解提供了标准化测评基准。
当前挑战
在解决图像地理定位领域问题时,模型需克服多尺度空间推理的复杂性,包括从宏观国家识别到微观街道层级的语义关联。构建过程中面临全球地理分布均衡性维护的挑战,需确保不同区域文化特征与视觉线索的全面覆盖。同时,人工标注关键线索与过程感知评估框架的设计要求精确量化各推理步骤的贡献度,这对评估方法的科学性与可复现性提出了更高标准。数据采集还涉及跨国界多媒体素材的版权合规性处理,需要建立完善的授权沟通机制。
常用场景
经典使用场景
在视觉语言模型评估领域,EarthWhere数据集通过多尺度地理定位任务构建了标准化测试框架。其经典应用体现在对模型空间推理能力的系统性测评,包括国家层级的全景图像识别与街道层级的开放世界定位。研究者在模型训练阶段常利用该数据集验证跨场景泛化性能,特别是在处理包含文化地标、自然景观等多样化地理线索的视觉内容时,能够有效检验模型对空间层级关系的理解深度。
解决学术问题
该数据集致力于解决视觉语言模型在细粒度地理推理中的关键挑战。通过引入人类验证的关键线索标注和过程感知评估机制,显著提升了模型推理路径的可解释性研究。其创新性的沙普利重加权思维评分体系,有效量化了不同视觉线索对定位结果的边际贡献,为突破模型区域偏见、提升多步骤推理鲁棒性提供了重要方法论支撑,推动了视觉定位任务从结果导向到过程分析的理论演进。
衍生相关工作
围绕该数据集衍生的经典研究包括多模态检索增强生成架构的优化、层次化定位损失的创新设计等方向。众多团队基于其评估协议开发了融合视觉语义嵌入的地理推理模型,推动了动态推理链解构方法的发展。相关成果进一步催生了面向开放环境的地理问答系统,以及结合时空上下文的视觉定位代理等创新应用,持续拓展着多模态地理人工智能的技术边界。
以上内容由遇见数据集搜集并总结生成



