five

GAEA-1.6M|地理信息科学数据集|计算机视觉数据集

收藏
arXiv2025-03-21 更新2025-03-22 收录
地理信息科学
计算机视觉
下载链接:
https://ucf-crcv.github.io/GAEA
下载链接
链接失效反馈
资源简介:
GAEA-1.6M是一个全面的地理分布数据集,由中央佛罗里达大学创建,包含800K幅图像和约1.6M个问题-答案对。这些数据来源于多个数据集,如MP-16和GLD-v2,覆盖了地球上的不同地点。数据集通过利用OpenStreetMap的丰富元数据,提供了关于周边区域、地标、可访问服务和地区历史构建的详细信息。该数据集是迄今为止最大的地理定位和对话型问题-答案对集合,旨在解决图像地理位置识别和提供与位置相关的丰富信息的问题。
提供机构:
中央佛罗里达大学
创建时间:
2025-03-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
GAEA-1.6M数据集的构建基于多源地理图像数据,包括MediaEval 2016 (MP-16)、Google Landmarks v2 (GLDv2)和CityGuessr68k。通过OpenStreetMap (OSM)的元数据,数据集在1公里半径范围内提取了丰富的地理上下文信息,并利用开源和专有的大型多模态模型(如GPT-4o)生成了多样化的问答对。数据集包含超过80万张图像和160万对问答,涵盖了全球234个国家和地区的41,481个城市,确保了地理多样性和广泛的覆盖范围。
特点
GAEA-1.6M数据集的特点在于其地理多样性和丰富的上下文信息。数据集不仅包含图像的地理定位信息,还通过OSM元数据提供了详细的周边环境描述,如地标、服务设施和历史背景。此外,数据集中的问答对涵盖了多种形式,包括选择题、判断题和开放式问答,能够有效支持模型在地理定位和对话能力上的训练。数据集还特别注重地理推理能力的培养,通过GeoGuessr等游戏中的地理线索,增强了模型对地理环境的理解。
使用方法
GAEA-1.6M数据集主要用于训练和评估具有地理定位能力的对话模型。研究人员可以使用该数据集进行模型的预训练和微调,特别是在地理定位、推理和对话生成任务上。数据集中的多样化问答对能够帮助模型提升对地理上下文的理解和生成能力。此外,GAEA-Bench作为评估基准,提供了4,000个图像-文本对,用于测试模型在不同类型问题上的表现,包括选择题、判断题和开放式问答。通过该数据集,研究人员可以开发出能够提供详细地理信息和进行自然对话的智能系统。
背景与挑战
背景概述
GAEA-1.6M数据集由中佛罗里达大学的研究团队于2025年提出,旨在解决图像地理定位任务中的对话能力不足问题。传统的地理定位模型仅能预测图像的GPS坐标,而缺乏对地理环境的深入理解和与用户的对话能力。GAEA-1.6M数据集包含80万张图像和160万对问答对,通过结合OpenStreetMap(OSM)属性和地理上下文线索构建,覆盖了全球范围内的234个国家和地区。该数据集的提出填补了大规模对话式地理定位模型训练数据的空白,推动了地理定位与对话系统的结合,具有广泛的应用前景,如旅游、导航、城市规划等领域。
当前挑战
GAEA-1.6M数据集在构建和应用过程中面临多重挑战。首先,地理定位任务本身具有极高的复杂性,受季节变化、地理多样性、气候差异等因素影响,模型难以精确预测图像的地理位置。其次,构建大规模对话式地理定位数据集需要处理海量的地理元数据,如OpenStreetMap(OSM)数据的质量参差不齐,尤其在偏远地区数据不完整或过时,导致数据标注的准确性和一致性难以保证。此外,生成高质量的问答对需要结合地理上下文线索,模型需具备强大的推理能力,以应对多样化的地理场景和复杂的对话需求。最后,训练对话式地理定位模型对计算资源的需求极高,数据集的规模和复杂性进一步加剧了训练难度。
常用场景
经典使用场景
GAEA-1.6M数据集在图像地理定位任务中展现了其独特的价值,尤其是在结合地理信息与对话能力的场景中。该数据集通过提供80万张图像和160万对问答对,支持模型在预测图像GPS坐标的同时,能够理解并回答用户关于图像所在位置的相关问题。这种能力使得GAEA-1.6M在旅游、导航、城市规划等领域具有广泛的应用潜力。
实际应用
在实际应用中,GAEA-1.6M数据集能够为旅游、导航和城市规划等领域提供有力支持。例如,游客可以通过与模型的对话获取关于某个景点的详细信息,如附近的餐厅、交通路线等。在城市规划中,模型可以帮助分析某个区域的基础设施分布情况,从而为决策提供数据支持。此外,该数据集还可用于开发智能导航系统,帮助用户更高效地找到目的地。
衍生相关工作
GAEA-1.6M数据集的推出催生了一系列相关研究工作。例如,基于该数据集开发的GAEA模型在多个地理定位基准测试中表现优异,超越了现有的开源和专有模型。此外,该数据集还为其他研究者提供了丰富的地理定位和对话数据,推动了地理定位与对话模型的融合研究。相关研究如GeoChat、GeoReasoner等模型也在GAEA-1.6M的基础上进行了进一步的优化和改进,推动了该领域的持续发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录