Google Street View图像地理定位数据集

Name: Google Street View图像地理定位数据集
Creator: 阿帕特研究公司, 马里兰大学, 河内科技大学, 科技大学
Published: 2025-02-20 17:59:28
License: 暂无描述

arXiv2025-02-20 更新2025-02-22 收录

下载链接：

https://github.com/njspyx/location-inference

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1602张从Google Street View收集的图像，覆盖全球不同地理和城市环境。每张图像都标注有精确的地理坐标、城市、国家和API参数。该数据集旨在评估视觉语言模型在单张图像地理定位方面的能力。

This dataset contains 1,602 images collected from Google Street View, covering diverse global geographic and urban environments. Each image is annotated with precise geographic coordinates, city, country, and API parameters. This dataset is designed to evaluate the capabilities of vision-language models in single-image geolocation tasks.

提供机构：

阿帕特研究公司, 马里兰大学, 河内科技大学, 科技大学

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

该数据集通过从Google Street View中收集图像来构建，旨在代表全球范围内的地理覆盖。研究人员从每个大洲和人口等级中选择了约200个独特的城市，并尝试从每个城市内10公里半径的随机点获取图像。最终数据集包含了来自1563个独特城市和88个独特国家的1602张图像，这些图像描绘了不同水平的城市化和代表了Street View数据可用的各种国家。每张图像都标注了精确的纬度、经度和API参数。

特点

Google Street View图像地理定位数据集的特点在于其全球性的地理和城市多样性。该数据集的图像覆盖了从大型都市到小城镇的各种城市规模，以及北美洲、亚洲、欧洲、非洲、南美洲和大洋洲的广泛地区。每张图像都带有详细的地理坐标，包括纬度、经度、城市、国家和API参数，这使得图像可以根据需要动态更新或检索。此外，数据集还包括了一个子集，其中包含了从每个国家中采样的一些图像。

使用方法

使用Google Street View图像地理定位数据集的方法包括基准模型评估和VLM代理评估。基准模型评估涉及在单个图像上进行地理定位推断，评估各种大型和小型参数的VLMs。VLM代理评估进一步测试了VLM的能力，通过为基本模型提供访问额外工具，如Street View或Google Lens的权限。在评估过程中，模型会被要求提供一个思维链（CoT），描述图像的推理过程和视觉元素，然后提供预测的国家、城市、纬度和经度。预测坐标的距离误差以千米为单位进行评分。

背景与挑战

背景概述

随着视觉信息在当今社会的日益普及，视觉-语言模型（VLMs）的广泛应用引发了关于隐私保护的重要问题。本研究专注于评估VLMs从先前未见过的图像数据中推断地理位置的能力。为此，研究人员收集了一个来自Google Street View的基准数据集，该数据集代表了其在全球范围内的覆盖分布。通过对这些图像进行单图像地理位置推断评估，许多模型实现了中位数距离误差小于300公里的结果。进一步评估了具有辅助工具访问权限的VLM 'agents'，观察到距离误差最高可减少30.6%。这些发现表明，现代基础VLMs可以作为强大的图像地理位置工具，而不需要为此任务进行特定训练。随着这些模型可访问性的增加，这些发现对在线隐私具有更大的影响。

当前挑战

该数据集和相关研究面临的主要挑战包括：1) 评估VLMs在精确地理位置推断方面的能力，这对于保护个人隐私至关重要；2) 构建一个包含全球范围内不同城市和国家的Google Street View图像数据集，确保数据集的多样性和代表性；3) 评估VLMs在没有特定训练的情况下进行地理位置推断的能力；4) 研究VLM 'agents'在利用辅助工具（如Street View或Google Lens）时，其地理位置推断能力的提升情况。

常用场景

经典使用场景

在视觉-语言模型（VLMs）日益普及的时代，Google Street View图像地理定位数据集被广泛用于评估模型从未见过的图像数据中推断地理位置的能力。该数据集代表Google Street View的全局覆盖分布，提供了1602张图像，每张图像都标注有精确的经纬度信息。研究者们使用这些图像来评估基础模型在单图像地理定位推断方面的能力，发现许多模型的中位数距离误差小于300公里。此外，研究者们还测试了VLM“代理”在访问补充工具时的表现，观察到距离误差最多减少了30.6%。这一发现表明，现代基础VLMs可以作为强大的图像地理定位工具，即使它们没有专门为此任务进行训练。

实际应用

Google Street View图像地理定位数据集的实际应用场景包括但不限于：1）在线隐私保护：通过评估VLMs在推断地理位置方面的能力，可以帮助开发更有效的隐私保护措施，以防止恶意用户利用VLMs进行位置追踪或隐私泄露。2）城市规划和环境监测：通过分析VLMs在地理定位任务上的表现，可以帮助城市规划和环境监测部门更好地理解不同地区的特征和变化。3）地理信息系统（GIS）和导航服务：VLMs在地理定位方面的能力可以为GIS和导航服务提供更准确的地理位置信息，从而提高服务的准确性和可靠性。

衍生相关工作

Google Street View图像地理定位数据集衍生了以下相关工作：1）PIGEON架构：PIGEON架构是一种用于全球地理定位的VLM，它在Google Street View图像地理定位数据集上取得了显著的性能。2）GeoGuessr游戏：GeoGuessr是一款流行的地理定位游戏，它使用Google Street View图像来测试玩家的地理定位能力。3）基于VLMs的地理定位工具：基于VLMs的地理定位工具可以利用Google Street View图像地理定位数据集来提高其地理定位的准确性和可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集