EarthWhere

Name: EarthWhere
Creator: 美国加州大学圣克鲁斯分校, 美国佛罗里达中央大学, 美国哥伦比亚大学, 亚马逊研究院, 美国加州大学伯克利分校
Published: 2025-10-13 09:12:21
License: 暂无描述

arXiv2025-10-13 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/tonyqian/EarthWhere

下载链接

链接失效反馈

官方服务：

资源简介：

EarthWhere是一个全面的地标定位基准，用于评估视觉语言模型（VLMs）的地标定位能力。该数据集包含了810张全球分布的图像，跨越两个互补的地标定位规模：WhereCountry和WhereStreet。WhereCountry任务包含500个多选题，要求模型识别国家级别的地标；WhereStreet任务包含310个需要多步推理的精细街道级别识别任务。数据集的创建过程涉及了对图像进行人工验证的关键视觉线索的收集和推理过程的评估。EarthWhere旨在解决视觉语言模型在开放世界条件下地标定位的问题，这对于现实生活中的搜索和救援、城市规划或环境监测等领域至关重要。

EarthWhere is a comprehensive landmark localization benchmark for evaluating the landmark localization capabilities of Vision-Language Models (VLMs). This dataset contains 810 globally distributed images, spanning two complementary landmark localization scales: WhereCountry and WhereStreet. The WhereCountry task consists of 500 multiple-choice questions that require models to recognize national-level landmarks; the WhereStreet task includes 310 fine-grained street-level recognition tasks that demand multi-step reasoning. The dataset creation process entails collecting key visual cues from images with manual verification, as well as evaluating the associated reasoning procedures. EarthWhere aims to address the challenge of landmark localization for vision-language models under open-world conditions, which is critical for real-world applications such as search and rescue, urban planning, and environmental monitoring.

提供机构：

美国加州大学圣克鲁斯分校, 美国佛罗里达中央大学, 美国哥伦比亚大学, 亚马逊研究院, 美国加州大学伯克利分校

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

EarthWhere数据集通过双尺度结构构建，涵盖国家级别与街道级别的精确定位任务。WhereCountry子集从GeoComp数据集中筛选出500张具有挑战性的全景图像，采用地理相邻与文化关联原则设计干扰选项，确保评估的严谨性。WhereStreet子集则整合310个来自公开视频平台的样本，通过人工转录与多轮验证提取关键视觉线索，并严格标注地理层级信息，形成多粒度定位评估体系。

使用方法

使用EarthWhere时需遵循其分阶段评估流程。对于WhereCountry任务，模型需基于全景图像从多选项中国家级定位答案；WhereStreet任务则要求结合视觉分析与网络搜索工具，逐步推理至街道或坐标级定位。评估阶段需同步计算最终定位精度与思维评分，通过标准化协议对比模型在视觉识别、证据整合与多步推理等方面的综合表现。数据集支持开放权重与闭源模型的横向比较，为地理定位研究提供可复现的基准平台。

背景与挑战

背景概述

EarthWhere数据集由加州大学圣克鲁兹分校等机构的研究团队于2025年提出，旨在系统评估视觉语言模型在开放环境下的图像地理定位能力。该数据集包含810张全球分布图像，涵盖国家级的WhereCountry任务与街道级的WhereStreet任务，通过多尺度定位挑战推动模型在视觉识别、多步推理与证据利用等方面的进步。其创新性在于首次整合了全景图像与细粒度街景数据，并引入人类验证的关键视觉线索，为地理空间人工智能研究提供了标准化评估框架。

当前挑战

在地理定位领域，模型需克服视觉线索稀疏性与多义性带来的核心挑战，例如从植被类型、建筑风格等有限信息中推断精确坐标。数据集构建过程中面临标注复杂性难题，包括跨语言视频转录的准确性验证、关键视觉线索的标准化提取，以及全球地理分布的平衡性控制。此外，评估体系需解决推理过程忠实度量化问题，通过沙普利值重加权机制区分关键线索的贡献度，避免模型依赖偏见或无效推理路径。

常用场景

经典使用场景

在视觉语言模型评估领域，EarthWhere数据集作为地理定位能力测试的基准平台，其经典应用场景体现在对模型跨尺度定位性能的系统性测评。该数据集通过WhereCountry的国家级识别任务和WhereStreet的街道级精细定位任务，构建了从宏观到微观的完整评估体系。研究者在模型开发阶段可借助该数据集验证视觉线索解析、多步推理和证据整合能力，特别是在处理全球分布图像时展现出的地理文化适应性。

解决学术问题

该数据集有效解决了视觉语言模型在开放环境下地理定位能力评估标准缺失的核心学术问题。通过构建双尺度定位任务和引入人类验证的关键视觉线索，EarthWhere突破了传统评估仅关注最终准确率的局限，创新性地提出了基于Shapley值加权的思维评分机制。这种多维评估体系不仅量化了模型的地理定位精度，更揭示了推理过程的忠实度与证据使用效率，为理解模型认知机制提供了全新视角。

实际应用

在实际应用层面，EarthWhere支撑的地理定位技术已在多个领域展现价值。应急响应系统通过图像自动定位提升搜救效率，城市规划部门利用街景定位数据优化基础设施布局，环境监测网络借助地理定位实现生态变化的精准追踪。该数据集特别强调的跨区域泛化能力，对于开发适应不同文化环境的智能导航、旅游服务等应用具有重要指导意义，推动了地理人工智能技术的产业化落地。

数据集最近研究