GAEA-1.6M, GAEA-Bench

github2025-03-23 更新2025-03-26 收录

下载链接：

https://github.com/UCF-CRCV/GAEA

下载链接

链接失效反馈

官方服务：

资源简介：

GAEA-1.6M包含80万张图像和约160万个问答对，利用OpenStreetMap（OSM）属性和地理背景线索构建。GAEA-Bench是一个多样化的基准，包含4K图像-文本对，用于评估具有多样化问题类型的对话能力。

GAEA-1.6M comprises 800,000 images and approximately 1.6 million question-answer pairs, constructed leveraging OpenStreetMap (OSM) attributes and geographic context cues. GAEA-Bench is a diverse benchmark encompassing 4K image-text pairs, designed to evaluate conversational capabilities across a wide spectrum of question types.

创建时间：

2025-03-13

原始信息汇总

GAEA: A Geolocation Aware Conversational Model 数据集概述

数据集基本信息

名称: GAEA-1.6M & GAEA-Bench
类型: 地理定位感知对话数据集
许可证: CC-BY-NC 4.0
发布机构: 中佛罗里达大学
发布日期: 2025年3月20日
论文链接: https://arxiv.org/abs/2503.16423
数据集下载: https://huggingface.co/collections/ucf-crcv/gaea-67d514a61d48eb1708b13a08

数据集组成

GAEA-1.6M

图像数量: 822,951
覆盖范围: 41,481个城市/234个国家
问答对总数: 1,580,531
- 地理定位问题: 822,951
- 解释性描述: 384,947
- 开放式问题: 267,668
- 多选题: 48,673
- 判断题: 56,292

GAEA-Bench

规模: 4,000个对话式QA对
用途: 评估地理定位对话能力

数据特征

数据来源多样性:
- 包含MP-16、GLD-v2和CityGuesser68k等地理多样性视觉样本
- 整合OpenStreetMap元数据和辅助上下文信息
问题类型多样性:
- 多选题(MCQ)
- 判断题(True/False)
- 短问答(Short VQA)
- 长问答(Long VQA)
地理信息丰富性:
- 包含气候带、国家地理线索等辅助信息

主要贡献

首个开源的地理定位感知对话模型
提出大规模训练数据集GAEA-1.6M
建立评估基准GAEA-Bench
开发交互式地理定位聊天机器人GAEA

评估结果

GAEA-Bench表现:
- 超越最佳开源模型LLaVA-OneVision 25.69%
- 超越最佳专有模型GPT-4o 8.28%
标准地理定位评估:
- 在IM2GPS和IM2GPS3k数据集上表现优异
分类准确率:
- 在城市和国家预测任务中表现突出

数据目录结构

GAEA-1.6M/ |–– MP-16/ |–– GLDv2/ |–– CityGuessr/

使用限制

仅限学术研究使用
禁止用于伤害或歧视性用途
图像版权归原始提供者所有

搜集汇总

数据集介绍

构建方式

GAEA-1.6M数据集的构建采用了多源地理空间数据融合策略，整合了MP-16、GLD-v2和CityGuesser68k等地理多样性视觉样本。通过OpenStreetMap(OSM)元数据平台，系统采集了包括气候带、国家地理线索等辅助上下文信息。采用GPT-4o和开源大语言模型协同工作流程，生成包含地理定位、推理和对话三个子集的多样化问答对，确保每个图像样本配套四种不同类型的问答组合。数据标注过程采用半自动化流水线，结合人工校验机制保证标注质量。

使用方法

数据集采用分层目录结构组织，按MP-16、GLDv2和CityGuessr三个源数据集分类存储。用户可通过HuggingFace平台获取完整数据包，配套提供自动化下载脚本。使用前需配置Python3.10环境和CUDA12.1计算框架，推荐使用conda创建虚拟环境并安装指定版本的PyTorch和Transformers库。训练流程支持分布式计算，提供完整的模型微调脚本。评估阶段包含对话能力测试、标准地理定位精度测量和分类准确性验证三个维度，各对应独立的评估脚本和指标计算模块。

背景与挑战

背景概述

GAEA-1.6M和GAEA-Bench数据集由中佛罗里达大学计算机视觉研究中心（UCF-CRCV）于2025年3月发布，核心研究团队包括Ron Campos、Ashmal Vayani等学者。该数据集针对多模态大模型在专业领域应用的局限性，特别是地理定位与对话结合的空白，构建了包含160万问答对的大规模语料库。作为首个融合地理空间属性与对话能力的开源数据集，其创新性地整合了OpenStreetMap元数据、气候带特征等多维地理上下文信息，为开发具备空间认知能力的对话系统提供了重要基础。

当前挑战

在解决地理定位对话任务方面，该数据集面临模型需同时处理视觉定位与自然语言理解的复合挑战，现有大模型在专业领域知识融合上表现不足。数据构建过程中，研究团队需克服地理数据异构性整合难题，包括协调MP-16、GLD-v2等多源数据的坐标系统与标注标准。问答对生成环节依赖GPT-4o等大语言模型，需设计精细的提示工程确保地理知识的准确传递，同时维持对话的自然流畅性。评估阶段则需建立兼顾坐标精度与对话质量的复合指标体系。

常用场景

经典使用场景

在计算机视觉与地理信息系统的交叉领域，GAEA-1.6M数据集通过融合多源地理空间数据与对话式问答对，为地理定位感知的对话模型训练提供了标准化测试平台。该数据集整合了MP-16、GLD-v2等地理多样性图像资源，结合OpenStreetMap元数据与气候带等辅助信息，构建了涵盖选择题、判断题及开放式问答的1.6百万组数据，特别适用于训练模型理解图像地理属性并进行多轮对话交互的能力。

解决学术问题

该数据集有效解决了地理定位研究中两大核心难题：一是传统模型仅输出GPS坐标而缺乏语义解释能力的问题，通过引入地理上下文对话数据，使模型具备位置推理与知识传递功能；二是现有大型多模态模型在专业地理任务中表现不足的缺陷，其提供的细粒度标注数据显著提升了模型对建筑风格、植被特征等地理标识物的理解精度，在标准测试集IM2GPS上实现了8.28%的性能突破。

实际应用

在智慧旅游领域，基于该数据集训练的GAEA模型可实时解析游客拍摄的街景图像，不仅精确定位景点坐标，还能生成包含历史文化背景的导游解说；应急响应场景中，救援人员通过上传灾害现场照片即可获取周边地形分析及避难路线建议；商业分析方面，连锁企业可利用其区域识别能力评估店铺选址的地理特征优势，实现数据驱动的决策支持。

数据集最近研究