IMAGEO-Bench

Name: IMAGEO-Bench
Creator: 美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学
Published: 2025-08-03 14:04:33
License: 暂无描述

arXiv2025-08-03 更新2025-08-06 收录

下载链接：

https://doi.org/10.5281/zenodo.16670471

下载链接

链接失效反馈

官方服务：

资源简介：

IMAGEO-Bench是一个用于评估大型语言模型（LLM）图像地理定位能力的基准数据集。它由三个多样化的数据集组成，涵盖了全球街道场景、美国兴趣点（POI）和一个私人收集的未见图像。数据集包括全球街道场景集（Dataset-GSS）、美国兴趣点众包集（Dataset-UPC）和私人收集野生集（Dataset-PCW）。数据集通过分层抽样构建，并通过私人收集的图像进行补充，以确保广泛的覆盖率。数据集大小为9179条，包括高质量的街道级图像、兴趣点图像和未见图像。数据集旨在解决图像地理定位问题，为危机响应、数字取证和基于位置的智能应用提供支持。

IMAGEO-Bench is a benchmark dataset for evaluating the image geolocation capabilities of Large Language Models (LLMs). It comprises three diverse datasets covering global street scenes, points of interest (POIs) in the United States, and a privately collected unseen image corpus. Specifically, the three constituent datasets are the Global Street Scene Dataset (Dataset-GSS), the U.S. Point of Interest Crowdsourcing Dataset (Dataset-UPC), and the Privately Collected Wild Dataset (Dataset-PCW). The dataset is constructed via stratified sampling and supplemented with privately collected images to ensure extensive coverage. It contains a total of 9179 data entries, including high-quality street-level images, point-of-interest images, and unseen images. This benchmark aims to address the image geolocation task, providing support for crisis response, digital forensics, and location-based intelligent applications.

提供机构：

美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学

创建时间：

2025-08-03

原始信息汇总

IMAGEO-Bench: 评估大语言模型图像地理定位能力的系统基准数据集

数据集概述

发布日期: 2025年8月1日
版本: v1
许可协议: Creative Commons Attribution 4.0 International
DOI: 10.5281/zenodo.16670471
文件大小: 3.9 GB
文件格式: ZIP

数据集组成

1. Dataset-GSS (Global Streetscape Set)

来源: NUS Global Streetscapes数据集
筛选标准:
- 完整标注8个视觉属性
- 高质量图像（无眩光、无反光）
- 具有足够地理定位线索
规模: 6,152张图像
覆盖范围: 123个国家的396个城市
特点: 全球文化、建筑和环境多样性

2. Dataset-UPC (U.S. POIs Crowdsourced Set)

来源: 加州大学圣地亚哥分校发布的Google Maps POI数据集
采样方法: 分层抽样
覆盖范围:
- 美国50个州和哥伦比亚特区
- 17个POI类别（如餐厅、酒店、博物馆等）
规模: 2,929张地理标记图像
数据内容: POI名称、类型、地址、经纬度坐标和类别标签

3. Dataset-PCW (Privately Collected Wild Set)

来源: 作者私人收集
规模: 272个原始图像-地址对
特点:
- 场景类型: 城市、郊区、农村和自然环境
- 天气条件: 晴天、多云、下雪等
- 时间: 白天、夜晚
用途: 专门用于保留评估

地面真实数据

内容: 每个样本的已验证地理坐标（纬度和经度）
确定方法: 权威来源和/或通过人工审查验证

文件列表

IMAGEO-Bench-datasets.zip
- 大小: 3.9 GB
- MD5: bda3f7e2c49bd9543683bdf77dafbc0e
IMAGEO-Bench-ground-truth.zip
- 大小: 1.9 MB
- MD5: 54b7fb5c134d600c910a79be4b9b3226

关键词

大语言模型
图像地理定位

引用格式

LI, L., Runlong, Y., Qikai, H., Bowei, L., Min, D., Yang, Z., & Xiaowei, J. (2025). IMAGEO-Bench: A Systematic Benchmark Dataset for Evaluating Image Geolocalization Ability in Large Language Models [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16670471

搜集汇总

数据集介绍

构建方式

IMAGEO-Bench数据集通过多阶段分层抽样和人工筛选构建，涵盖全球街景、美国兴趣点及私有图像三大子集。Dataset-GSS源自NUS Global Streetscapes，经质量过滤保留6,152张高质量街景图像；Dataset-UPC采用地理分层策略从Google Maps POI中抽取2,929张图像；Dataset-PCW则包含220张作者自采图像以避免数据泄露。构建过程注重地理多样性、场景类型平衡及视觉线索丰富性，确保评估的全面性。

特点

该数据集具有多维评估框架，不仅计算坐标预测准确率，还引入距离误差、计算成本等指标。其核心特点在于：1)地理覆盖广泛，涵盖123国396城及美国全境；2)场景多样性突出，包含城市/郊区/自然场景及室内外环境；3)标注体系完善，包含环境类型、场景类别等结构化特征；4)特别关注模型的地理偏见，通过私有测试集验证泛化能力。数据分布呈现明显的地域不平衡性，反映了现实世界的数据稀疏性问题。

使用方法

使用IMAGEO-Bench需遵循标准化流程：首先输入图像至支持视觉的多模态大模型，通过特定提示模板要求模型输出结构化JSON，包含图像信息、推理过程和地理预测三部分。评估时解析模型的坐标预测、地址描述及置信度，采用Haversine公式计算距离误差，同时分析不同地理层级（国家/州/城市）的语义准确率。研究者可通过回归诊断模块量化视觉特征对定位成功的影响，并对比不同区域的表现差异。数据集支持API调用和本地加载两种方式，需注意禁用外部数据访问以确保评估公正性。

背景与挑战

背景概述

IMAGEO-Bench数据集由美国南佛罗里达大学、阿拉巴马大学、密歇根大学等机构的研究团队于2025年联合发布，旨在系统评估大语言模型（LLMs）在图像地理定位任务中的能力。该数据集聚焦于计算机视觉与地理信息系统的交叉领域，核心研究问题是通过视觉线索（如地标、建筑风格、文本标识等）推断图像的地理坐标。作为首个全面评估LLMs空间推理能力的基准，IMAGEO-Bench包含三个子数据集：覆盖全球街景的Dataset-GSS、美国兴趣点数据集Dataset-UPC以及防止数据泄露的私有数据集Dataset-PCW。该数据集通过量化模型的地理偏见、推理过程等维度，为构建地理感知的AI系统提供了重要参考，推动了多模态大模型在危机响应、数字取证等领域的应用。

当前挑战

IMAGEO-Bench面临双重挑战：在领域问题层面，图像地理定位需克服视觉-空间映射的复杂性，包括低资源地区定位偏差（如北美以外区域平均误差增加217%）、无显著地标场景的泛化困难（乡村图像错误率比城市高3.2倍），以及跨文化视觉线索的语义解析（如拉丁字母与非拉丁文本的识别差异）。在构建层面，数据采集需平衡地理分布多样性（覆盖123个国家）与隐私保护（过滤含人脸图像），标注过程涉及多模态特征提取（融合GPS坐标、建筑风格等12类属性），且需解决数据污染风险（排除YFCC4k等可能被LLMs预训练的公开数据集）。此外，评估框架需设计兼顾离散分类（城市/国家准确率）和连续空间度量（Haversine距离误差）的多尺度指标。

常用场景

经典使用场景

IMAGEO-Bench数据集主要用于评估大型语言模型（LLMs）在图像地理定位任务中的表现。该数据集通过系统化的评估框架，测量模型在准确性、距离误差、地理空间偏差和推理过程等多个维度的性能。经典使用场景包括模型对全球街景、美国兴趣点（POIs）以及私有图像集合的地理定位能力测试，特别关注模型在不同地理区域和场景类型下的泛化能力。

衍生相关工作

IMAGEO-Bench的推出催生了一系列相关研究，特别是在多模态大型语言模型的视觉-空间推理能力方面。例如，基于该数据集的后续工作可能包括改进模型的检索增强生成（RAG）技术，或开发新的微调策略以减少地理偏差。此外，数据集的评估框架也被其他地理定位基准（如GEO-Bench和Img2Loc）借鉴，推动了该领域的标准化进程。

数据集最近研究