GeoPixelD

github2025-01-24 更新2025-01-25 收录

下载链接：

https://github.com/mbzuai-oryx/GeoPixel

下载链接

链接失效反馈

官方服务：

资源简介：

GeoPixelD是一个支持遥感接地对话生成（RS-GCG）的丰富注释数据集。该数据集结合了场景级上下文和对象级细节，通过一个可扩展的注释管道创建，该管道使用了专为遥感图像设计的高级视觉提示。数据集包含5,427个经过验证的引用表达式-掩码对和61,384个注释对象，平均每个描述有647个字符，为测试遥感模型的细粒度理解和生成能力设定了标准。

GeoPixelD is a richly annotated dataset that supports Remote Sensing Grounded Conversation Generation (RS-GCG). This dataset combines scene-level context and object-level details, and is created via a scalable annotation pipeline that employs advanced visual prompts specifically designed for remote sensing imagery. The dataset contains 5,427 validated referring expression-mask pairs and 61,384 annotated objects, with an average of 647 characters per description, setting a benchmark for testing the fine-grained understanding and generation capabilities of remote sensing models.

创建时间：

2025-01-23

原始信息汇总

GeoPixel 数据集概述

数据集简介

GeoPixel 是一个专门为高分辨率遥感（RS）图像理解和像素级定位设计的大型多模态模型。该模型通过处理自然语言用户查询与遥感图像，生成详细的输出，并结合动态适应输入空间分辨率和复杂性的交错掩码。

数据集亮点

GeoPixel 模型：针对高分辨率遥感图像理解进行了优化，支持高达4K分辨率的自适应图像分区。
GeoPixelD 数据集：支持遥感接地对话生成（RS-GCG），结合场景级上下文和对象级细节，通过可扩展的注释管道创建。
评估基准：包含5,427个验证的引用表达式-掩码对和61,384个注释对象，平均描述长度为647个字符，为测试遥感模型的细粒度理解和生成能力提供了标准。

数据集架构

GeoPixel 由五个关键模块组成：

自适应图像分割器
视觉编码器
大型语言模型
接地视觉编码器
像素解码器

这些模块无缝集成，以实现高分辨率视觉感知、细粒度语义解释和遥感图像的精确像素级定位。

注释管道

GeoPixel 采用半自动注释管道，创建遥感接地对话生成（RS-GCG）数据集。该管道采用多层次分层策略，包括整体场景描述、单个实例注释和组级语义表示，结合空间和类别先验的Set-of-Mark（SOM）提示技术，提高对象特定注释的准确性和粒度。

遥感接地对话生成（RS-GCG）

GeoPixel 处理用户查询，生成全面的描述性输出，同时通过交错的像素级掩码定位识别对象，展示其对高分辨率遥感图像的高级理解和精确解释能力。

引用遥感图像分割（RRSIS）

GeoPixel 展示了强大的能力，能够解释不同复杂度和长度的引用表达式，准确生成精确的分割掩码。

引用

bibtex @article{shabbir2025geopixel, title={GeoPixel : Pixel Grounding Large Multimodal Models in Remote Sensing}, author={Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan}, journal={ArXiv}, year={2025}, url={https://arxiv.org/abs/2501.13925} }

搜集汇总

数据集介绍

构建方式

GeoPixelD数据集的构建采用了半自动化的标注流程，结合了多层次的分层策略，包括整体场景描述、个体实例标注和组级语义表示。通过使用先进的视觉提示技术，如Set-of-Mark（SOM）提示，结合空间和类别先验知识，确保了对象特定标注的准确性和粒度。这一流程不仅提升了标注的效率，还增强了数据集在遥感图像理解中的全面性和细节表现。

特点

GeoPixelD数据集的特点在于其丰富的标注内容和多样化的应用场景。该数据集包含5,427个经过验证的参考表达-掩码对和61,384个标注对象，每个对象都配有平均647个字符的详细描述。这些标注不仅涵盖了场景级别的上下文信息，还深入到了对象级别的细节，为遥感图像的细粒度理解和生成任务提供了坚实的基础。此外，数据集支持遥感接地对话生成（RS-GCG）任务，能够有效评估模型在高分辨率遥感图像中的理解和生成能力。

使用方法

GeoPixelD数据集的使用方法主要围绕遥感接地对话生成（RS-GCG）和参考遥感图像分割（RRSIS）任务展开。用户可以通过自然语言查询与遥感图像进行交互，模型将生成详细的描述性输出，并通过交错的像素级掩码对识别对象进行接地。数据集还提供了详细的评估基准，包含多种性能指标，如精确度（P@0.5）、整体交并比（oIoU）和平均交并比（mIoU），帮助用户全面评估模型的性能。

背景与挑战

背景概述

GeoPixelD数据集由Mohamed bin Zayed人工智能大学、西澳大利亚大学、林雪平大学和澳大利亚国立大学的研究团队于2025年发布，旨在推动高分辨率遥感图像理解与像素级定位的研究。该数据集的核心研究问题在于如何通过自然语言查询与遥感图像结合，生成精确的像素级掩码，从而实现对复杂场景的细粒度理解。GeoPixelD的发布为遥感领域的多模态模型提供了首个大规模、高质量的训练与评估基准，显著提升了遥感图像分析与解释的精度与效率，推动了该领域的技术进步。

当前挑战

GeoPixelD数据集在构建过程中面临多重挑战。首先，遥感图像的高分辨率与复杂场景特性要求模型具备强大的计算能力与高效的图像分割策略，以确保像素级定位的准确性。其次，数据集的标注过程需要结合场景级上下文与对象级细节，这对标注的精确性与一致性提出了极高要求。此外，遥感图像的多尺度特性与多样化的地理环境增加了数据标注的难度，研究人员采用了半自动标注管道与先进的视觉提示技术，以提升标注的准确性与效率。这些挑战的解决不仅推动了遥感图像理解技术的发展，也为未来多模态模型的研究提供了宝贵的经验。

常用场景

经典使用场景

GeoPixelD数据集在遥感图像理解领域具有广泛的应用，特别是在高分辨率遥感图像的像素级标注和语义理解方面。该数据集通过结合自然语言查询与遥感图像，能够生成详细的描述性输出，并动态生成像素级掩码，适用于遥感图像中的对象检测、场景理解以及语义分割等任务。其经典使用场景包括遥感图像中的目标定位、场景描述生成以及复杂空间关系的解析。

解决学术问题

GeoPixelD数据集解决了遥感图像理解中的多个关键学术问题。首先，它通过提供丰富的标注数据，支持遥感图像中的像素级语义理解，填补了高分辨率遥感图像细粒度标注的空白。其次，该数据集通过引入自然语言查询与图像的多模态交互，推动了遥感图像与自然语言处理领域的交叉研究。最后，其提供的评估基准为遥感图像模型的性能测试提供了标准化工具，促进了模型的优化与创新。

衍生相关工作

GeoPixelD数据集的发布催生了一系列相关研究工作。例如，基于该数据集的模型GeoPixel在遥感图像语义分割和自然语言查询任务中表现出色，成为该领域的标杆模型。此外，许多研究团队利用该数据集开发了新的多模态模型，如LISA†和PixelLM†，这些模型在遥感图像理解任务中取得了显著进展。GeoPixelD还为其他领域的研究提供了灵感，例如医学图像分析和自动驾驶中的场景理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集