GeoArena

Name: GeoArena
Creator: 香港城市大学数据科学系, 威斯康星大学麦迪逊分校计算机科学系
Published: 2025-09-05 23:02:49
License: 暂无描述

arXiv2025-09-05 更新2025-11-24 收录

下载链接：

https://hf-mirror.com/spaces/garena2/GeoArena

下载链接

链接失效反馈

官方服务：

资源简介：

GeoArena是一个开放的评估平台，旨在为全球图像地理定位任务上的大型视觉语言模型（LVLMs）提供一个动态的、以人为中心的基准测试。它收集真实世界用户提供的野外图像，以构建一个更具多样性和动态更新的评估语料库。GeoArena使用人类偏好来评估模型预测的质量，而不仅仅是依赖于GPS精度，从而减轻了对精确用户位置数据的隐私风险。该平台自2025年6月部署以来，已收集数千条投票记录，并基于这些数据进行了详细分析，建立了一个不同LVLMs在图像地理定位上的排行榜。

GeoArena is an open evaluation platform designed to provide a dynamic, human-centric benchmark for large vision-language models (LVLMs) on the global image geolocation task. It collects real-world in-the-wild images provided by users to build a more diverse and dynamically updated evaluation corpus. GeoArena uses human preferences to evaluate the quality of model predictions rather than relying solely on GPS accuracy, thereby mitigating privacy risks associated with precise user location data. Since its deployment in June 2025, the platform has collected thousands of voting records, conducted detailed analyses based on these data, and established a leaderboard for different LVLMs on image geolocation tasks.

提供机构：

香港城市大学数据科学系, 威斯康星大学麦迪逊分校计算机科学系

创建时间：

2025-09-04

搜集汇总

数据集介绍

构建方式

GeoArena数据集通过开放式平台架构构建，采用动态数据采集机制。平台允许全球用户实时上传真实场景图像，并集成匿名模型并行生成地理位置预测结果。通过人机协同评估框架，系统记录用户对模型输出的偏好选择，形成基于人类判断的标注数据。该构建模式有效规避了传统静态数据集的数据泄露风险，同时通过持续更新的图像流确保数据分布的多样性和现实代表性。

使用方法

研究者可通过平台接口提交视觉语言模型进行在线评估，系统将自动匹配用户上传图像并收集模型预测结果。使用过程中，平台采用改进的布拉德利-特里模型计算模型间的相对能力评分，生成动态排行榜。数据集支持两种应用模式：一是直接调用平台API进行模型能力基准测试，二是下载已标注的GeoArena-1K子集用于离线研究。该数据集特别适用于地理定位模型的鲁棒性验证、跨区域泛化能力分析以及人类偏好对齐研究。

背景与挑战

背景概述

GeoArena作为全球图像地理定位领域首个开放式评估平台，由香港城市大学与威斯康星大学麦迪逊分校联合团队于2025年提出，旨在解决传统静态基准测试中存在的关键缺陷。该平台聚焦于大视觉语言模型在全球尺度图像地理定位任务中的性能评估，通过构建动态更新的真实场景图像库与人类偏好驱动的评估机制，有效应对了数据泄露与隐私保护等核心问题。其创新性在于将地理人工智能与多模态推理相结合，为地理空间智能研究提供了更贴近实际应用场景的评估框架。

当前挑战

在领域问题层面，全球图像地理定位需应对视觉特征与地理空间关联的极端复杂性，包括自然景观多样性、文化特征差异性以及细粒度空间推理要求。构建过程中面临三重挑战：其一是动态数据流的持续获取，需保证用户上传图像具有全球代表性与时空分布均衡性；其二是评估体系设计，需建立兼顾推理质量与隐私保护的人类偏好标注机制；其三是基础设施支撑，要求平台具备处理海量多模态数据与实时模型比对的扩展能力。

常用场景

经典使用场景

在图像地理定位研究领域，GeoArena数据集作为首个动态评估平台，其经典应用场景集中于对大视觉语言模型进行全球范围图像地理位置预测能力的基准测试。该平台通过收集真实用户上传的野外图像，构建了高度多样化的评估语料库，有效模拟了现实世界中复杂多变的地理环境条件。研究人员能够利用这一平台对各类模型进行系统性横向比较，从而揭示不同架构在空间推理和世界知识理解方面的能力差异。

解决学术问题

GeoArena主要解决了地理定位研究中两个关键学术问题：静态数据集存在的数据泄露问题，以及传统GPS坐标评估方法对推理过程忽视的缺陷。通过采用动态更新的真实用户图像和基于人类偏好的评估机制，该数据集建立了更可靠的模型能力评估框架。这种创新方法不仅规避了预训练数据污染对评估结果的影响，还通过引入人类判断标准，使得模型的空间推理能力和解释质量得到全面衡量。

实际应用

在实际应用层面，GeoArena为导航系统、犯罪追踪和灾害监测等地理相关领域提供了重要的技术验证平台。其收集的数千条人类投票记录形成了宝贵的偏好数据集，可直接用于优化商业地理定位服务的响应质量。该平台展示的模型排名系统为行业用户选择合适的地理定位模型提供了权威参考，同时其隐私保护设计使得在敏感场景下的位置服务评估成为可能。

数据集最近研究