NAVICLUES
收藏arXiv2025-02-20 更新2025-02-22 收录
下载链接:
https://github.com/SparrowZheyuan18/Navig/
下载链接
链接失效反馈官方服务:
资源简介:
NAVICLUES是一个高质量的地理解析数据集,由清华大学等机构创建。该数据集从GeoGuessr游戏中收集了超过2000个实例,记录了五名有经验的YouTuber分析图像细节以推断位置的过程,用于训练视觉语言模型生成类似于专业人类玩家的推理。数据集在地理上分布广泛,涵盖了不同国家的各种图像,以减少潜在的数据偏差。
NAVICLUES is a high-quality geographic parsing dataset created by institutions including Tsinghua University. This dataset collects over 2000 instances from the GeoGuessr game, documenting the process in which five experienced YouTubers analyze image details to infer geographic locations, and is intended for training vision-language models to generate reasoning similar to that of professional human players. The dataset features wide geographic distribution, covering diverse images from various countries to mitigate potential data bias.
提供机构:
清华大学
创建时间:
2025-02-20
搜集汇总
数据集介绍

构建方式
NAVICLUES数据集的构建始于对GeoGuessr游戏的深入分析。该游戏要求玩家根据街景图像推测地点,这一过程中玩家会使用视觉、地理和文化等多方面的线索进行推理。研究团队从五位经验丰富的YouTuber玩家的“一起玩”视频和游戏过程中的推理文字记录中提取数据。通过对视频进行分割,识别每个回合的结果页面,并基于每个回合的坐标从Google Street View API获取图像,创建360度全景视图。此外,通过光学字符识别技术从图像中提取文本信息,并结合人类专家的推理过程,生成包含推理步骤的详细数据。最终,NAVICLUES数据集包含1120张图像,每张图像都关联有其位置信息(包括大洲、国家和坐标)、推理过程和得分。
特点
NAVICLUES数据集的主要特点是其高质量的推理元素和多样性。数据集包含了人类专家进行地理定位推理的具体过程,这些推理过程不仅涉及地标名称,还包括了对气候、植被、建筑和基础设施等地理相关细节的分析。此外,NAVICLUES在地理上分布均匀,覆盖了世界各地的图像,有助于减少数据偏差。数据集中的每条记录都包括图像、位置、推理过程和得分,这些信息为训练视觉语言模型提供了丰富的学习材料。
使用方法
使用NAVICLUES数据集的方法主要包括数据预处理、模型训练和推理过程。首先,对从GeoGuessr游戏中收集的数据进行预处理,包括视频分割、图像和文本提取以及推理过程的生成。然后,使用Low-Rank Adaptation (LoRA)技术对视觉语言模型进行微调,以便模型能够从图像中生成关于位置的推理过程。最后,使用模型生成的推理过程和从图像中提取的细节信息,结合外部工具如地图和指南,进行最终的地理位置预测。NAVIG框架整合了这些步骤,包括REASONER模块进行一般推理,SEARCHER模块利用外部知识进行细节分析,以及GUESSER模块结合两者的输出来确定最终位置。
背景与挑战
背景概述
图像地理定位任务旨在预测图像拍摄的特定位置,这需要跨越视觉、地理和文化背景的复杂推理。NAVICLUES数据集的创建旨在填补高质量推理数据集的空白,并推动图像地理定位领域的发展。该数据集由清华大学、南京大学和马里兰大学的研究人员共同创建,基于流行的地理游戏GeoGuessr,收集了来自五名经验丰富的YouTube玩家的推理过程,以提供专家级推理的语言示例。NAVICLUES数据集的创建对于推动视觉语言模型在图像地理定位任务中的应用具有重要意义,并有助于提高模型的推理能力和准确性。
当前挑战
尽管现有的视觉语言模型在图像地理定位任务中取得了较好的精度,但它们的推理仍然比人类的推理更为表面。这主要是因为:1)缺乏高质量的推理数据集:现有的地理标记数据集缺乏语言推理元素,而构建一个涉及基于图像细节的推理的数据集需要大量的资源。2)多样化的信息检索复杂度:图像通常包含丰富的细节,如路标、文本和建筑风格,需要额外的工具进行准确的检索和解释。为了解决这些问题,NAVICLUES数据集和NAVIG框架被引入,以提供更深入的视觉分析和外部知识整合,以进行更精确的地理定位。
常用场景
经典使用场景
NAVICLUES数据集主要用于图像地理定位任务,它通过提供高质量的专家推理示例,帮助视觉语言模型(VLMs)进行推理分析。NAVIG框架整合了全局和细粒度图像信息,通过语言推理,与之前的模型相比,平均距离误差降低了14%,并且需要的训练样本少于1000个。
解决学术问题
NAVICLUES数据集解决了图像地理定位任务中缺乏高质量推理数据集和模型的问题。通过使用语言推理,NAVIG框架在保持高准确性的同时,需要的训练样本数量大幅减少,这对于模型训练和部署具有重要意义。
衍生相关工作
NAVICLUES数据集和NAVIG框架的提出,推动了图像地理定位领域的研究进展。它们为后续研究提供了重要的参考和启示,例如如何构建高质量的推理数据集、如何利用外部知识源进行推理分析等。
以上内容由遇见数据集搜集并总结生成



