GeoText-1652

Name: GeoText-1652
Creator: 新加坡国立大学 Sea-NExT 联合实验室
Published: 2024-03-14 21:38:53
License: 暂无描述

arXiv2024-03-14 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.12751v2

下载链接

链接失效反馈

官方服务：

资源简介：

GeoText-1652是一个专为自然语言引导的无人机地理定位设计的基准数据集，由新加坡国立大学Sea-NExT联合实验室开发。该数据集通过结合大型语言模型和预训练视觉模型的交互式人机过程构建，扩展了现有的University-1652图像数据集，增加了空间感知文本标注，建立了图像、文本和边界框元素之间的一对一对应关系。数据集主要用于无人机通过文本进行导航和无人机视角目标定位，旨在解决现有数据集在语言引导无人机导航方面的不足，提供更精确的空间关系匹配，以提升无人机在现实世界场景中的控制和导航能力。

GeoText-1652 is a benchmark dataset specifically designed for natural language-guided drone geolocation, developed by the Sea-NExT Joint Lab at the National University of Singapore. This dataset is constructed via an interactive human-machine workflow that integrates large language models and pre-trained visual models. It expands the existing University-1652 image dataset by adding spatially-aware textual annotations, and establishes one-to-one correspondence among image, text, and bounding box elements. The dataset is mainly applied to text-based drone navigation and drone-view target localization, aiming to address the shortcomings of existing datasets in language-guided drone navigation, providing more precise spatial relationship matching to enhance the control and navigation capabilities of drones in real-world scenarios.

提供机构：

新加坡国立大学 Sea-NExT 联合实验室

创建时间：

2023-11-22

搜集汇总

数据集介绍

构建方式

在无人机自然语言导航的研究领域，高质量的多模态数据集对于推动视觉与文本数据的精准对齐至关重要。GeoText-1652数据集的构建采用了创新的人机交互标注策略，以扩展现有的University-1652图像数据集为基础。该过程分为模态扩展与空间细化两个阶段：首先利用视觉大模型生成图像级和区域级文本描述，并通过裁判模型自动筛选高质量描述；随后借助预训练的视觉定位模型将区域描述与边界框关联，结合空间规则进行过滤与精炼。经过多轮人工评估与迭代优化，最终形成了包含27.6万文本-边界框对的高质量标注，实现了图像、文本与空间位置的一一对应。

特点

GeoText-1652数据集在跨模态地理定位任务中展现出鲜明的特色。其核心在于提供了细粒度的区域级空间描述，平均每幅图像配有2.62个边界框及对应的文本标注，这些描述平均包含21.6个词汇，并明确嵌入了‘左’、‘右’、‘上’、‘下’等空间关系指示词。与仅提供图像对或类别标签的传统数据集不同，该数据集通过密集的空间上下文注释，支持对无人机视角下复杂场景的精细理解。数据涵盖卫星、无人机和地面摄像头三种平台视角，且训练集与测试集在大学场景上无重叠，确保了评估的泛化性，为自然语言引导的无人机导航与目标定位任务奠定了坚实基础。

使用方法

GeoText-1652数据集主要支持两项跨模态检索任务：基于文本的无人机导航（文本到图像检索）和无人机视角目标定位（图像到文本检索）。研究者可利用该数据集训练模型学习视觉与语言表征的联合嵌入，并通过提出的混合空间匹配方法，进一步优化区域级空间关系对齐。具体而言，模型在标准图像-文本对比匹配损失的基础上，引入 grounding loss 与 spatial loss，以利用边界框预测和相对空间关系分类来增强细粒度空间关联。在评估时，文本查询任务通过自然语言描述检索对应的无人机图像；图像查询任务则根据给定无人机图像匹配最相关的文本描述。数据集的划分便于进行模型训练与性能验证，其丰富的空间标注有助于提升模型在真实场景中的泛化与导航精度。

背景与挑战

背景概述

随着无人机技术在灾害管理、搜救行动及遥感监测等领域的广泛应用，如何通过自然语言指令实现无人机的精准导航与控制，成为人机交互领域的前沿课题。GeoText-1652数据集于2024年由新加坡国立大学Sea-NExT联合实验室、澳门大学及杭州电子科技大学的研究团队共同创建，旨在解决自然语言引导的无人机地理定位问题。该数据集在经典的University-1652多视角图像数据集基础上，通过人机协同的大语言模型标注技术，系统性地构建了图像、文本与边界框之间的细粒度对应关系，共计包含超过27万组文本-边界框对及31万余条描述。其核心研究价值在于首次为无人机视角下的跨模态检索任务提供了大规模、高质量的语言-视觉对齐基准，显著推动了自然语言理解与空间感知的融合研究，为智能无人系统的自主导航奠定了关键数据基础。

当前挑战

GeoText-1652数据集致力于解决自然语言引导的无人机地理定位这一核心领域问题，其面临的首要挑战在于跨模态的细粒度对齐。无人机视角场景通常包含大量外观相似的建筑物或地标，仅依赖物体类别的文本描述极易引发检索歧义，模型必须精准理解并匹配文本中蕴含的复杂空间关系（如“左上侧”、“中心建筑右侧”等），方能实现准确的地理定位。在数据集构建过程中，研究团队亦遭遇了严峻的挑战。一方面，为航拍图像生成高质量、细粒度的文本描述本身成本高昂，且需保证标注的可靠性与一致性；另一方面，预训练的视觉语言模型存在幻觉现象与领域差异，难以直接适用于无人机视角数据。为此，团队创新性地设计了包含模态扩展与空间细化两阶段的人机交互标注框架，并引入裁判模型进行质量过滤，才最终克服了自动化标注的局限性，确保了数据集中空间文本标注的精确性与可用性。

常用场景

经典使用场景

在无人机视觉导航领域，GeoText-1652数据集为自然语言引导的跨模态地理定位研究提供了核心基准。该数据集通过构建图像、文本描述与空间边界框之间的精确对应关系，主要服务于文本到图像的细粒度检索任务。研究者利用该数据集训练模型，使其能够理解诸如“中央建筑左侧的停车场”等包含空间关系的自然语言指令，从而在庞大的地理图像库中精准定位目标场景，推动了人机交互方式从传统遥操作向语义化指令控制的范式转变。

实际应用

在实际应用层面，GeoText-1652支撑的技术可直接赋能于智能无人机系统。在灾害应急响应中，救援人员可通过“寻找红色屋顶、左侧有开阔空地的建筑”等自然语言指令，指挥无人机快速定位目标区域。在智慧城市管理与基础设施巡检中，该系统能依据文本描述自动导航至特定设施进行监控。这种直观的交互方式大幅降低了专业无人机操作的门槛，提升了任务执行的效率和灵活性，为自动驾驶无人机在复杂现实环境中的可靠应用奠定了基础。

衍生相关工作

围绕GeoText-1652数据集，研究者们已开展了一系列经典衍生工作。其提出的“混合空间匹配”优化目标，融合了 grounding loss 与 spatial loss，成为后续研究处理空间关系对齐的重要基线。该工作启发了对跨视图地理定位模型中空间推理能力的深入探索，例如如何将相对位置编码更有效地融入视觉-语言预训练架构。此外，其采用的人机协同大语言模型标注框架，也为其他需要高质量细粒度多模态标注数据的领域提供了可借鉴的范式，促进了数据合成与标注技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集