IMAGEO-Bench
收藏arXiv2025-08-03 更新2025-08-06 收录
下载链接:
https://doi.org/10.5281/zenodo.16670471
下载链接
链接失效反馈官方服务:
资源简介:
IMAGEO-Bench是一个用于评估大型语言模型(LLM)图像地理定位能力的基准数据集。它由三个多样化的数据集组成,涵盖了全球街道场景、美国兴趣点(POI)和一个私人收集的未见图像。数据集包括全球街道场景集(Dataset-GSS)、美国兴趣点众包集(Dataset-UPC)和私人收集野生集(Dataset-PCW)。数据集通过分层抽样构建,并通过私人收集的图像进行补充,以确保广泛的覆盖率。数据集大小为9179条,包括高质量的街道级图像、兴趣点图像和未见图像。数据集旨在解决图像地理定位问题,为危机响应、数字取证和基于位置的智能应用提供支持。
提供机构:
美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学
创建时间:
2025-08-03
原始信息汇总
IMAGEO-Bench: 评估大语言模型图像地理定位能力的系统基准数据集
数据集概述
- 发布日期: 2025年8月1日
- 版本: v1
- 许可协议: Creative Commons Attribution 4.0 International
- DOI: 10.5281/zenodo.16670471
- 文件大小: 3.9 GB
- 文件格式: ZIP
数据集组成
1. Dataset-GSS (Global Streetscape Set)
- 来源: NUS Global Streetscapes数据集
- 筛选标准:
- 完整标注8个视觉属性
- 高质量图像(无眩光、无反光)
- 具有足够地理定位线索
- 规模: 6,152张图像
- 覆盖范围: 123个国家的396个城市
- 特点: 全球文化、建筑和环境多样性
2. Dataset-UPC (U.S. POIs Crowdsourced Set)
- 来源: 加州大学圣地亚哥分校发布的Google Maps POI数据集
- 采样方法: 分层抽样
- 覆盖范围:
- 美国50个州和哥伦比亚特区
- 17个POI类别(如餐厅、酒店、博物馆等)
- 规模: 2,929张地理标记图像
- 数据内容: POI名称、类型、地址、经纬度坐标和类别标签
3. Dataset-PCW (Privately Collected Wild Set)
- 来源: 作者私人收集
- 规模: 272个原始图像-地址对
- 特点:
- 场景类型: 城市、郊区、农村和自然环境
- 天气条件: 晴天、多云、下雪等
- 时间: 白天、夜晚
- 用途: 专门用于保留评估
地面真实数据
- 内容: 每个样本的已验证地理坐标(纬度和经度)
- 确定方法: 权威来源和/或通过人工审查验证
文件列表
- IMAGEO-Bench-datasets.zip
- 大小: 3.9 GB
- MD5: bda3f7e2c49bd9543683bdf77dafbc0e
- IMAGEO-Bench-ground-truth.zip
- 大小: 1.9 MB
- MD5: 54b7fb5c134d600c910a79be4b9b3226
关键词
- 大语言模型
- 图像地理定位
引用格式
LI, L., Runlong, Y., Qikai, H., Bowei, L., Min, D., Yang, Z., & Xiaowei, J. (2025). IMAGEO-Bench: A Systematic Benchmark Dataset for Evaluating Image Geolocalization Ability in Large Language Models [Data set]. Zenodo. https://doi.org/10.5281/zenodo.16670471
搜集汇总
数据集介绍

构建方式
IMAGEO-Bench数据集通过多阶段分层抽样和人工筛选构建,涵盖全球街景、美国兴趣点及私有图像三大子集。Dataset-GSS源自NUS Global Streetscapes,经质量过滤保留6,152张高质量街景图像;Dataset-UPC采用地理分层策略从Google Maps POI中抽取2,929张图像;Dataset-PCW则包含220张作者自采图像以避免数据泄露。构建过程注重地理多样性、场景类型平衡及视觉线索丰富性,确保评估的全面性。
特点
该数据集具有多维评估框架,不仅计算坐标预测准确率,还引入距离误差、计算成本等指标。其核心特点在于:1)地理覆盖广泛,涵盖123国396城及美国全境;2)场景多样性突出,包含城市/郊区/自然场景及室内外环境;3)标注体系完善,包含环境类型、场景类别等结构化特征;4)特别关注模型的地理偏见,通过私有测试集验证泛化能力。数据分布呈现明显的地域不平衡性,反映了现实世界的数据稀疏性问题。
使用方法
使用IMAGEO-Bench需遵循标准化流程:首先输入图像至支持视觉的多模态大模型,通过特定提示模板要求模型输出结构化JSON,包含图像信息、推理过程和地理预测三部分。评估时解析模型的坐标预测、地址描述及置信度,采用Haversine公式计算距离误差,同时分析不同地理层级(国家/州/城市)的语义准确率。研究者可通过回归诊断模块量化视觉特征对定位成功的影响,并对比不同区域的表现差异。数据集支持API调用和本地加载两种方式,需注意禁用外部数据访问以确保评估公正性。
背景与挑战
背景概述
IMAGEO-Bench数据集由美国南佛罗里达大学、阿拉巴马大学、密歇根大学等机构的研究团队于2025年联合发布,旨在系统评估大语言模型(LLMs)在图像地理定位任务中的能力。该数据集聚焦于计算机视觉与地理信息系统的交叉领域,核心研究问题是通过视觉线索(如地标、建筑风格、文本标识等)推断图像的地理坐标。作为首个全面评估LLMs空间推理能力的基准,IMAGEO-Bench包含三个子数据集:覆盖全球街景的Dataset-GSS、美国兴趣点数据集Dataset-UPC以及防止数据泄露的私有数据集Dataset-PCW。该数据集通过量化模型的地理偏见、推理过程等维度,为构建地理感知的AI系统提供了重要参考,推动了多模态大模型在危机响应、数字取证等领域的应用。
当前挑战
IMAGEO-Bench面临双重挑战:在领域问题层面,图像地理定位需克服视觉-空间映射的复杂性,包括低资源地区定位偏差(如北美以外区域平均误差增加217%)、无显著地标场景的泛化困难(乡村图像错误率比城市高3.2倍),以及跨文化视觉线索的语义解析(如拉丁字母与非拉丁文本的识别差异)。在构建层面,数据采集需平衡地理分布多样性(覆盖123个国家)与隐私保护(过滤含人脸图像),标注过程涉及多模态特征提取(融合GPS坐标、建筑风格等12类属性),且需解决数据污染风险(排除YFCC4k等可能被LLMs预训练的公开数据集)。此外,评估框架需设计兼顾离散分类(城市/国家准确率)和连续空间度量(Haversine距离误差)的多尺度指标。
常用场景
经典使用场景
IMAGEO-Bench数据集主要用于评估大型语言模型(LLMs)在图像地理定位任务中的表现。该数据集通过系统化的评估框架,测量模型在准确性、距离误差、地理空间偏差和推理过程等多个维度的性能。经典使用场景包括模型对全球街景、美国兴趣点(POIs)以及私有图像集合的地理定位能力测试,特别关注模型在不同地理区域和场景类型下的泛化能力。
衍生相关工作
IMAGEO-Bench的推出催生了一系列相关研究,特别是在多模态大型语言模型的视觉-空间推理能力方面。例如,基于该数据集的后续工作可能包括改进模型的检索增强生成(RAG)技术,或开发新的微调策略以减少地理偏差。此外,数据集的评估框架也被其他地理定位基准(如GEO-Bench和Img2Loc)借鉴,推动了该领域的标准化进程。
数据集最近研究
最新研究方向
随着多模态大语言模型(LLMs)在视觉推理领域的快速发展,IMAGEO-Bench作为首个系统性评估LLMs图像地理定位能力的基准,近期研究聚焦于三个核心方向:首先,针对地理空间偏差的量化分析成为热点,研究发现LLMs在高资源区域(如北美、西欧)的定位准确率显著高于欠覆盖地区,这引发了关于训练数据均衡性和模型公平性的深入探讨。其次,视觉-空间推理机制的解构研究取得突破,通过回归诊断揭示了城市环境、户外场景和可识别地标等特征对定位成功的关键影响,为模型优化提供了可解释性路径。最后,检索增强生成(RAG)与监督微调相结合的混合方法展现出潜力,在LLMGeo等后续研究中将中位误差从传统方法的300公里降至4.2公里,显著提升了在未见区域的泛化能力。该数据集通过融合全球街景、美国POI和私有图像三个子集,为构建地理感知AI系统提供了标准化评估框架,其多维度量体系(包含精度、距离误差、计算成本等)已被CVPR 2025等顶会研究广泛采用,推动了危机响应、数字取证等领域的技术革新。
相关研究论文
- 1From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models美国南佛罗里达大学、阿拉巴马大学、密歇根大学、德克萨斯理工大学、德克萨斯A&M大学、匹兹堡大学 · 2025年
以上内容由遇见数据集搜集并总结生成



