IMAGEO-Bench

Name: IMAGEO-Bench
Creator: 美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学
Published: 2025-08-03 14:04:33
License: 暂无描述

arXiv2025-08-03 更新2025-08-06 收录

下载链接：

https://doi.org/10.5281/zenodo.16670471

下载链接

链接失效反馈

官方服务：

资源简介：

IMAGEO-Bench是一个用于评估大型语言模型（LLM）图像地理定位能力的基准数据集。它由三个多样化的数据集组成，涵盖了全球街道场景、美国兴趣点（POI）和一个私人收集的未见图像。数据集包括全球街道场景集（Dataset-GSS）、美国兴趣点众包集（Dataset-UPC）和私人收集野生集（Dataset-PCW）。数据集通过分层抽样构建，并通过私人收集的图像进行补充，以确保广泛的覆盖率。数据集大小为9179条，包括高质量的街道级图像、兴趣点图像和未见图像。数据集旨在解决图像地理定位问题，为危机响应、数字取证和基于位置的智能应用提供支持。

提供机构：

美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学

创建时间：

2025-08-03

原始信息汇总

IMAGEO-Bench: 评估大语言模型图像地理定位能力的系统基准数据集

数据集概述

发布日期: 2025年8月1日
版本: v1
许可协议: Creative Commons Attribution 4.0 International
DOI: 10.5281/zenodo.16670471
文件大小: 3.9 GB
文件格式: ZIP

数据集组成

1. Dataset-GSS (Global Streetscape Set)

来源: NUS Global Streetscapes数据集
筛选标准:
- 完整标注8个视觉属性
- 高质量图像（无眩光、无反光）
- 具有足够地理定位线索
规模: 6,152张图像
覆盖范围: 123个国家的396个城市
特点: 全球文化、建筑和环境多样性

2. Dataset-UPC (U.S. POIs Crowdsourced Set)

来源: 加州大学圣地亚哥分校发布的Google Maps POI数据集
采样方法: 分层抽样
覆盖范围:
- 美国50个州和哥伦比亚特区
- 17个POI类别（如餐厅、酒店、博物馆等）
规模: 2,929张地理标记图像
数据内容: POI名称、类型、地址、经纬度坐标和类别标签

3. Dataset-PCW (Privately Collected Wild Set)

来源: 作者私人收集
规模: 272个原始图像-地址对
特点:
- 场景类型: 城市、郊区、农村和自然环境
- 天气条件: 晴天、多云、下雪等
- 时间: 白天、夜晚
用途: 专门用于保留评估

地面真实数据

内容: 每个样本的已验证地理坐标（纬度和经度）
确定方法: 权威来源和/或通过人工审查验证

文件列表

IMAGEO-Bench-datasets.zip
- 大小: 3.9 GB
- MD5: bda3f7e2c49bd9543683bdf77dafbc0e
IMAGEO-Bench-ground-truth.zip
- 大小: 1.9 MB
- MD5: 54b7fb5c134d600c910a79be4b9b3226

关键词

大语言模型
图像地理定位

引用格式

LI, L., Runlong, Y., Qikai, H., Bowei, L., Min, D., Yang, Z., & Xiaowei, J. (2025). IMAGEO-Bench: A Systematic Benchmark Dataset for Evaluating Image Geolocalization Ability in Large Language Models [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16670471

搜集汇总

数据集介绍

构建方式

IMAGEO-Bench数据集通过多阶段分层抽样和人工筛选构建，涵盖全球街景、美国兴趣点及私有图像三大子集。Dataset-GSS源自NUS Global Streetscapes，经质量过滤保留6,152张高质量街景图像；Dataset-UPC采用地理分层策略从Google Maps POI中抽取2,929张图像；Dataset-PCW则包含220张作者自采图像以避免数据泄露。构建过程注重地理多样性、场景类型平衡及视觉线索丰富性，确保评估的全面性。

特点

该数据集具有多维评估框架，不仅计算坐标预测准确率，还引入距离误差、计算成本等指标。其核心特点在于：1)地理覆盖广泛，涵盖123国396城及美国全境；2)场景多样性突出，包含城市/郊区/自然场景及室内外环境；3)标注体系完善，包含环境类型、场景类别等结构化特征；4)特别关注模型的地理偏见，通过私有测试集验证泛化能力。数据分布呈现明显的地域不平衡性，反映了现实世界的数据稀疏性问题。

使用方法

使用IMAGEO-Bench需遵循标准化流程：首先输入图像至支持视觉的多模态大模型，通过特定提示模板要求模型输出结构化JSON，包含图像信息、推理过程和地理预测三部分。评估时解析模型的坐标预测、地址描述及置信度，采用Haversine公式计算距离误差，同时分析不同地理层级（国家/州/城市）的语义准确率。研究者可通过回归诊断模块量化视觉特征对定位成功的影响，并对比不同区域的表现差异。数据集支持API调用和本地加载两种方式，需注意禁用外部数据访问以确保评估公正性。

背景与挑战

背景概述

IMAGEO-Bench数据集由美国南佛罗里达大学、阿拉巴马大学、密歇根大学等机构的研究团队于2025年联合发布，旨在系统评估大语言模型（LLMs）在图像地理定位任务中的能力。该数据集聚焦于计算机视觉与地理信息系统的交叉领域，核心研究问题是通过视觉线索（如地标、建筑风格、文本标识等）推断图像的地理坐标。作为首个全面评估LLMs空间推理能力的基准，IMAGEO-Bench包含三个子数据集：覆盖全球街景的Dataset-GSS、美国兴趣点数据集Dataset-UPC以及防止数据泄露的私有数据集Dataset-PCW。该数据集通过量化模型的地理偏见、推理过程等维度，为构建地理感知的AI系统提供了重要参考，推动了多模态大模型在危机响应、数字取证等领域的应用。

当前挑战

IMAGEO-Bench面临双重挑战：在领域问题层面，图像地理定位需克服视觉-空间映射的复杂性，包括低资源地区定位偏差（如北美以外区域平均误差增加217%）、无显著地标场景的泛化困难（乡村图像错误率比城市高3.2倍），以及跨文化视觉线索的语义解析（如拉丁字母与非拉丁文本的识别差异）。在构建层面，数据采集需平衡地理分布多样性（覆盖123个国家）与隐私保护（过滤含人脸图像），标注过程涉及多模态特征提取（融合GPS坐标、建筑风格等12类属性），且需解决数据污染风险（排除YFCC4k等可能被LLMs预训练的公开数据集）。此外，评估框架需设计兼顾离散分类（城市/国家准确率）和连续空间度量（Haversine距离误差）的多尺度指标。

常用场景

经典使用场景

IMAGEO-Bench数据集主要用于评估大型语言模型（LLMs）在图像地理定位任务中的表现。该数据集通过系统化的评估框架，测量模型在准确性、距离误差、地理空间偏差和推理过程等多个维度的性能。经典使用场景包括模型对全球街景、美国兴趣点（POIs）以及私有图像集合的地理定位能力测试，特别关注模型在不同地理区域和场景类型下的泛化能力。

衍生相关工作

IMAGEO-Bench的推出催生了一系列相关研究，特别是在多模态大型语言模型的视觉-空间推理能力方面。例如，基于该数据集的后续工作可能包括改进模型的检索增强生成（RAG）技术，或开发新的微调策略以减少地理偏差。此外，数据集的评估框架也被其他地理定位基准（如GEO-Bench和Img2Loc）借鉴，推动了该领域的标准化进程。

数据集最近研究