GeoVistaBench

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/LibraTree/GeoVistaBench

下载链接

链接失效反馈

官方服务：

资源简介：

GeoVistaBench是一个用于评估代理模型地理定位能力的第一个基准数据集，包含了丰富的元数据的真实世界照片集合，用于评估地理定位模型。每个样本对应一个由`uid`标识的全景图，包括原始高分辨率图像和用于快速检查的轻量级预览图。

创建时间：

2025-11-25

原始信息汇总

GeoVistaBench数据集概述

数据集简介

GeoVistaBench是首个评估代理模型通用地理定位能力的基准数据集。该数据集包含带有丰富元数据的真实世界照片，用于评估地理定位模型。

数据结构

id: 唯一标识符（与原始数据中的uid相同）
raw_image_path: 源全景图像在仓库内的相对路径，位于raw_image/<uid>/目录下
preview: 压缩的JPEG预览图像（≤100万像素），位于preview_image/<uid>/目录下，供HF数据集查看器使用
metadata: JSON对象，存储拍摄时间戳、位置、pano_id、城市和其他属性，可解析获取经纬度、城市名称、多级位置标签等信息
data_type: 描述图像类型的字符串，如果元数据中缺失则默认为panorama

数据存储

所有样本存储在Hugging Face兼容的parquet文件中，路径为data/<split>/data-00000-of-00001.parquet，附加元数据存储在dataset_info.json中。

使用方法

克隆/下载此文件夹（或通过huggingface_hub拉取）
使用Python加载parquet文件： python from datasets import load_dataset ds = load_dataset(path/to/this/folder, split=test) sample = ds[0]
- sample["raw_image_path"]指向用于推理的高质量文件
- sample["preview"]直接加载为压缩的PIL图像
使用元数据驱动评估逻辑，如计算城市级准确率、按data_type过滤或检查特定区域

技术说明

原始全景图保留原始文件名以保持来源可追溯性
预览图像经过调整大小以降低存储成本，同时保持场景代表性
使用衍生作品时需遵守数据集的许可证（dataset_info.json）

引用信息

bibtex @misc{wang2025geovistawebaugmentedagenticvisual, title = {GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization}, author = {Yikun Wang and Zuyan Liu and Ziyi Wang and Pengfei Liu and Han Hu and Yongming Rao}, year = {2025}, eprint = {2511.15705}, archivePrefix= {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2511.15705}, }

搜集汇总

数据集介绍

构建方式

作为地理定位领域的重要基准，GeoVistaBench通过系统采集真实世界全景图像构建而成。每幅全景图像均配备唯一标识符与原始高分辨率数据路径，同时为提升访问效率生成轻量化预览图像。数据集采用标准化元数据结构，完整记录拍摄时间戳、地理坐标、城市名称及多级位置标签，所有样本均以HuggingFace兼容的Parquet格式存储，并通过数据集分割确保评估场景的多样性。

特点

该数据集最显著的特征在于其开创性地构建了首个面向智能体模型的通用地理定位能力评估体系。通过保留原始全景图像的高清特性与轻量化预览的双重数据形态，既满足精细分析需求又保障了高效访问。元数据层融合了时空维度与地理层级信息，支持从城市精度到区域特征的多粒度分析，为地理视觉推理任务提供了前所未有的丰富上下文。

使用方法

研究者可通过HuggingFace生态系统直接加载数据集分区，利用Python接口快速获取样本数据。实际应用中，原始高分辨率图像路径专供模型推理使用，而压缩预览图像则支持即时可视化验证。元数据字段可驱动定制化评估流程，包括按地理层级计算定位精度、依据图像类型筛选样本或针对特定区域进行深入分析，所有操作均需遵循数据集许可协议。

背景与挑战

背景概述

GeoVistaBench作为首个评估智能体模型通用地理定位能力的基准数据集，由Yikun Wang等研究人员于2025年提出，标志着计算机视觉与地理空间分析交叉领域的重要突破。该数据集通过整合真实场景的全景图像与多维度元数据，致力于解决复杂环境下智能体视觉推理的核心科学问题。其创新性架构为地理定位模型的系统性评估提供了标准化框架，显著推动了视觉语言模型在空间认知任务中的发展进程。

当前挑战

地理定位任务面临场景多样性带来的语义理解挑战，模型需克服不同地域建筑风格、植被特征与光照条件的显著差异。数据集构建过程中需处理海量全景图像的数据清洗与标注难题，包括地理位置坐标的精确映射、多层级空间标签的语义对齐，以及原始高分辨率影像与轻量化预览版本的协同存储。这些技术瓶颈直接制约着模型在真实场景中的泛化能力与部署效率。

常用场景

经典使用场景

在计算机视觉与地理空间智能交叉领域，GeoVistaBench作为首个评估智能体模型通用地理定位能力的基准数据集，其经典应用场景聚焦于全景图像的地理坐标识别任务。通过提供包含丰富元数据的高分辨率全景影像，该数据集能够系统评估模型从复杂视觉场景中推断经纬度信息的能力，为地理定位算法的性能比较提供了标准化测试平台。

解决学术问题

该数据集有效解决了地理定位研究中长期存在的评估标准缺失问题，为多模态模型的空间推理能力提供了量化基准。通过统一评估框架，研究者能够客观比较不同模型在城市级定位精度、跨区域泛化性等关键指标上的表现，推动了视觉地理定位从单一任务向通用智能体能力的范式转变，对构建具备空间认知能力的人工智能系统具有里程碑意义。

衍生相关工作

基于该数据集衍生的经典工作包括GeoVista模型——通过强化学习训练的智能体视觉语言模型，其在网络增强的视觉推理框架中实现了突破性进展。相关研究进一步催生了面向高效预览的数据集变体GeoVista-Bench，以及一系列融合多模态学习与空间推理的新方法，持续推动着地理空间人工智能技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

GeoVistaBench

GeoVistaBench数据集概述

数据集简介

数据结构

数据存储

使用方法

技术说明

相关资源

引用信息