refGeo

github2024-11-20 更新2024-11-28 收录

下载链接：

https://github.com/zytx121/GeoGround

下载链接

链接失效反馈

官方服务：

资源简介：

refGeo是一个大规模的遥感视觉指令跟随数据集，包含161k图像-文本对和80k遥感图像。

refGeo is a large-scale remote sensing visual instruction-following dataset comprising 161k image-text pairs and 80k remote sensing images.

创建时间：

2024-11-16

原始信息汇总

GeoGround 数据集概述

数据集简介

GeoGround 是一个用于遥感视觉定位的统一大型视觉-语言模型。该数据集旨在通过自然语言表达来定位遥感图像中的特定对象（以边界框或分割掩码的形式），增强人与智能遥感解释系统之间的交互。

主要贡献

框架：提出了 GeoGround，一个统一了框级和像素级遥感视觉定位任务的 VLM 框架。
数据集：引入了 refGeo，一个包含 161k 图像-文本对和 80k 遥感图像的大型遥感视觉定位指令跟随数据集，包括一个新的 3D 感知无人机视觉定位数据集。
基准测试：在多种遥感视觉定位任务上进行了广泛的实验，为未来的遥感 VLM 研究提供了有价值的见解。

数据集详情

refGeo 数据集：包含 161k 图像-文本对和 80k 遥感图像，涵盖了四个现有的视觉定位数据集，并引入了一个新的 3D 感知无人机视觉定位数据集（AVVG）。
数据类型：每个引用的对象提供水平边界框（HBB）、定向边界框（OBB）和掩码，掩码由 SAM 自动生成。

实验结果

引用表达理解（REC）（HBB）：GeoGround 在所有 REC 基准测试中表现最佳，超过了 DIOR-RSVG 测试集上的专用模型。
引用表达理解（REC）（OBB）：GeoGround 在基于 OBB 的遥感视觉定位任务中表现出色，进一步验证了混合监督方法的有效性。
引用表达分割（RES）：GeoGround 不需要额外的掩码解码器，其固有的分割能力使其在遥感引用分割任务中表现优异。
广义引用表达理解（GRES）（多目标）：基于 AVVG 的 RS 广义 REC 基准测试中，一个引用表达可能对应多个对象。
图像描述与视觉问答（VQA）：GeoGround 增强了对象级理解，同时不损害 VLM 的整体图像理解能力。

引用

bibtex @misc{zhou2024geoground, title={GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding}, author={Yue Zhou and Mengcheng Lan and Xiang Li and Yiping Ke and Xue Jiang and Litong Feng and Wayne Zhang}, year={2024}, eprint={2411.11904}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.11904}, }

搜集汇总

数据集介绍

构建方式

在遥感视觉定位领域，refGeo数据集的构建旨在支持自然语言表达与遥感图像中特定对象的定位。该数据集整合了四个现有的视觉定位数据集，并引入了一个新的空中飞行器视觉定位数据集（AVVG）。AVVG将传统的二维视觉定位扩展到三维上下文，使视觉语言模型能够从二维航空图像中感知三维空间。对于每个引用的对象，数据集提供了水平边界框（HBB）、定向边界框（OBB）和掩码，其中掩码由SAM自动生成。

特点

refGeo数据集的主要特点在于其大规模和多样性。它包含了161k图像-文本对和80k遥感图像，涵盖了多种视觉定位任务，包括水平边界框、定向边界框和掩码定位。此外，数据集引入了3D感知空中飞行器视觉定位任务，增强了模型对三维空间的理解能力。这种多任务和多维度的设计使得refGeo成为遥感视觉定位研究的重要资源。

使用方法

refGeo数据集适用于多种遥感视觉定位任务的训练和评估。研究人员可以使用该数据集来训练视觉语言模型，以实现对遥感图像中特定对象的精确定位。数据集提供了丰富的标注信息，包括水平边界框、定向边界框和掩码，支持多种定位任务的训练。此外，数据集的3D感知特性为研究提供了新的方向，特别是在处理复杂的三维空间定位任务时。

背景与挑战

背景概述

遥感视觉定位（RS Visual Grounding）旨在通过自然语言表达在遥感图像中定位特定对象，从而增强人与智能遥感解释系统之间的交互。早期研究主要基于水平边界框（HBB），但随着更多样化的遥感数据集的出现，涉及定向边界框（OBB）和分割掩码的任务逐渐涌现。在实际应用中，不同目标需要不同类型的定位：HBB定位对象位置，OBB提供其方向，而掩码描述其形状。然而，现有专门方法通常针对单一类型的遥感视觉定位任务，难以跨任务泛化。相比之下，大型视觉语言模型（VLMs）虽然具有强大的多任务学习能力，但在处理密集预测任务如分割时表现不佳。为此，我们提出了GeoGround框架，该框架统一支持HBB、OBB和掩码的遥感视觉定位任务，允许灵活的输出选择。通过Text-Mask技术，我们优雅地支持像素级视觉定位输出，并定义了提示辅助和几何引导学习，以增强不同信号之间的一致性。为支持模型训练，我们引入了refGeo数据集，这是一个包含161k图像-文本对的大型遥感视觉指令跟随数据集。实验结果表明，GeoGround在四个遥感视觉定位任务中表现出强劲的性能，在多个基准上匹配或超越了专门方法的性能。

当前挑战

refGeo数据集的构建面临多重挑战。首先，遥感图像的多样性和复杂性使得数据标注和处理变得极为复杂。其次，不同类型的定位任务（如HBB、OBB和掩码）需要不同的标注策略和模型架构，这增加了数据集的构建难度。此外，将2D视觉定位扩展到3D上下文（如AVVG数据集中的3D感知空中车辆定位）进一步增加了数据集的复杂性。最后，如何在保持模型多任务学习能力的同时，确保其在密集预测任务（如分割）中的表现，是GeoGround框架面临的主要挑战。这些挑战不仅涉及技术层面的创新，还要求在数据集构建和模型设计中进行深入的跨学科研究。

常用场景

经典使用场景

在遥感视觉定位领域，refGeo数据集的经典使用场景主要集中在通过自然语言表达来定位遥感图像中的特定对象。该数据集支持水平边界框（HBB）、定向边界框（OBB）和分割掩码（mask）三种定位方式，使得研究人员能够在不同任务中灵活选择输出类型。通过结合大规模视觉语言模型（VLMs），refGeo数据集能够有效提升遥感图像解释系统的智能化水平，增强人与智能系统之间的交互。

解决学术问题

refGeo数据集解决了遥感视觉定位领域中多任务学习的难题。传统方法通常针对单一类型的视觉定位任务进行优化，难以在不同任务间泛化。refGeo通过统一支持HBB、OBB和mask三种定位任务，使得模型能够在多任务环境中表现出色。这不仅提升了模型的泛化能力，还为未来的遥感视觉语言模型研究提供了宝贵的数据支持，推动了该领域的技术进步。

衍生相关工作

refGeo数据集的发布催生了一系列相关研究工作。例如，基于refGeo的视觉语言模型在遥感图像理解、图像描述生成和视觉问答（VQA）等任务中表现出色。此外，refGeo还启发了对多目标视觉定位任务的研究，推动了遥感视觉定位技术在复杂场景中的应用。这些衍生工作不仅丰富了遥感视觉定位的研究内容，还为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集