five

CORE

收藏
arXiv2026-03-09 更新2026-03-11 收录
下载链接:
https://github.com/YtH0823/CORE
下载链接
链接失效反馈
官方服务:
资源简介:
CORE是由武汉大学团队构建的全球首个百万级跨模态地理定位数据集,涵盖全球225个地理区域的1,034,786对跨视角图像-文本对。该数据集通过大视觉语言模型合成高质量场景描述,提供了前所未有的环境多样性和城市布局变化视角。数据采集覆盖全球各大陆的城乡环境,特别关注不同气候带和人文建筑风格的空间异质性。该数据集旨在解决复杂场景下的全球导航问题,为跨模态地理定位研究提供大规模基准。

CORE is the world's first million-scale cross-modal geolocation dataset developed by the research team at Wuhan University. It encompasses 1,034,786 pairs of cross-view image-text data spanning 225 geographic regions across the globe. This dataset generates high-quality scene descriptions using large vision-language models, providing unprecedented environmental diversity and perspectives on variations in urban layouts. The data collection covers both urban and rural environments across all continents, with special emphasis on the spatial heterogeneity of different climate zones and human architectural styles. This dataset is designed to tackle the challenge of global navigation in complex scenarios, serving as a large-scale benchmark for cross-modal geolocation research.
提供机构:
武汉大学·遥感信息工程学院; 湖南省第一测绘院
创建时间:
2026-03-09
原始信息汇总

CORE 数据集概述

数据集基本信息

  • 数据集名称:CORE
  • 托管平台:GitHub
  • 仓库地址:https://github.com/YtH0823/CORE

数据集描述

根据提供的README文件内容,该数据集详情页面未包含具体的描述信息。

搜集汇总
数据集介绍
main_image_url
构建方式
在跨模态地理定位领域,数据集的构建需兼顾地理覆盖广度与场景描述深度。CORE数据集通过整合多源街景与卫星影像,构建了首个百万级全球规模基准。其采集流程覆盖全球六大洲225个地理区域,采用Google Street View、百度地图等平台获取517,393张地面全景图像,并通过Google Maps API匹配对应地理标签的卫星影像,形成1,034,786对跨视角图像对。文本标注环节引入大型视觉语言模型Qwen3-VL-Plus,通过结构化提示框架生成细粒度场景描述,并经过人工抽样校验与启发式规则过滤,确保文本与视觉内容在物理属性层面的精确对齐。
特点
CORE数据集展现出多维度创新特性。其地理多样性涵盖从高密度都市到稀疏郊区的全球异质环境,突破了传统数据集的地域局限性。规模层面通过百万级样本构建了城市、大陆与全球三级定位体系,支持多粒度检索任务。场景多样性体现于建筑风格、地形特征与气候条件的系统化覆盖,与文本描述中的细粒度词汇形成宏观分布与微观属性的协同建模。核心优势在于对物理属性的显式刻画,标注系统将几何尺寸、材料构成与色彩特征编码为结构化描述,使模型能够超越表象视觉学习环境本质规律。文本标记长度呈现高斯分布特征,在保证语义密度的同时优化了训练稳定性。
使用方法
该数据集为全球跨模态地理定位研究提供了标准化评估框架。研究者可采用双流架构分别处理卫星图像与文本描述,通过对比学习范式在共享隐空间对齐跨模态特征。具体实施时,可将全球数据按地理邻近性与地貌特征划分为四大洲际子集,支持域内训练与跨域泛化测试。评估指标采用检索准确率R@1与定位精度L@150,后者针对数据集地理离散特性将距离阈值扩展至150米。训练过程中可引入物理一致性约束机制,将文本投影的物理描述符与图像解耦的频谱、几何、纹理特征进行显式对齐,从而增强模型对地理异质环境的判别能力。数据集的分区设计便于开展迁移学习实验,验证模型在未见过地理区域的适应性能。
背景与挑战
背景概述
跨模态地理定位(CMGL)作为地理空间人工智能(GeoAI)的核心任务,旨在通过匹配地面文本描述与地理标记的航拍图像实现精确定位,在行人导航与应急响应等场景中具有关键应用价值。然而,现有研究受限于狭窄的地理覆盖范围与单一的场景多样性,难以反映全球建筑风格与地形特征的巨大空间异质性。为填补这一空白并推动通用定位技术的发展,武汉大学等机构的研究团队于2026年推出了首个百万级规模的全球CMGL数据集CORE。该数据集包含来自全球六大洲225个地理区域的1,034,786张跨视角图像,并利用大型视觉语言模型(LVLMs)合成了富含判别性线索的高质量场景描述。CORE的建立不仅解决了数据规模与地理多样性的瓶颈,更为全球尺度下的跨模态地理定位研究提供了前所未有的基准平台,显著推动了该领域从区域化向全球化范式的演进。
当前挑战
CORE数据集致力于解决跨模态地理定位的核心挑战,即如何实现自然语言描述与航拍图像在复杂全球环境下的精准语义对齐。这一领域问题的核心难点在于克服由气候条件、文化差异导致的巨大视觉与语义异质性,确保模型能够从文本中提取如建筑结构、道路布局、植被特征等细粒度物理属性,并与卫星影像的底层统计分布建立可靠映射。在数据集构建过程中,研究团队面临多重挑战:首先,需在全球范围内采集兼具地理代表性与场景多样性的百万级街景-卫星图像对,并保证数据的时间同步性与空间精确性;其次,利用大模型生成高质量文本描述时,需设计严谨的提示框架以避免幻觉信息,并通过人工校验确保描述与视觉内容在物理属性层面的一致性;最后,数据集的划分需平衡各大洲的样本分布,以支持模型在未见地理区域上的泛化能力评估,这对数据采集策略与标注流程提出了极高要求。
常用场景
经典使用场景
在跨模态地理定位领域,CORE数据集为模型训练与评估提供了前所未有的全球尺度基准。其最经典的使用场景在于支撑文本到卫星图像的检索任务,即根据地面场景的自然语言描述,从海量地理标记的卫星图像库中精确定位对应的地理位置。研究者在训练阶段利用该数据集百万量级的图像-文本对,学习如何将语言中的空间语义与遥感影像的视觉特征进行对齐;在测试阶段,则评估模型在未见过的全球多样化区域上,仅凭文本描述实现精准地理定位的能力。这种端到端的跨模态检索流程,构成了CORE数据集在学术研究中的核心应用范式。
解决学术问题
CORE数据集有效解决了地理空间人工智能中几个长期存在的关键问题。首先,它突破了以往数据集地理覆盖狭窄、场景单一的局限,通过涵盖六大洲225个区域的百万级样本,为研究全球尺度下的空间异质性提供了数据基础。其次,数据集提供的细粒度文本标注,源自大视觉语言模型的零样本推理,富含判别性物理属性线索,使得模型能够超越宏观语义对齐,学习语言描述与影像内在物理特征(如光谱、结构、纹理)之间的精细映射。这为解决跨模态语义鸿沟、提升模型在复杂多变全球环境中的泛化鲁棒性提供了至关重要的研究平台。
衍生相关工作
围绕CORE数据集,已衍生出一系列具有影响力的经典研究工作。其配套提出的物理定律感知网络(PLANET)框架便是最直接的衍生成果,该框架创新性地引入一致性对比学习范式,显式对齐文本语义与图像内在物理签名,显著提升了跨模态地理定位的精度与鲁棒性,为后续研究设立了新的性能基准。此外,CORE作为首个百万级全球CMGL数据集,必然催生更多专注于解决地理分布异构性、跨域泛化、细粒度属性对齐的新算法。可以预见,未来基于CORE的模型架构创新、多任务学习(如结合视觉问答)、以及面向极端环境(如灾害区域)的鲁棒性研究,将成为该领域的重要发展方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作