GeoPixelD
收藏arXiv2025-01-24 更新2025-01-25 收录
下载链接:
https://github.com/mbzuai-oryx/GeoPixel
下载链接
链接失效反馈官方服务:
资源简介:
GeoPixelD是由穆罕默德·本·扎耶德人工智能大学等机构创建的多模态对话生成数据集,专为遥感图像理解设计。该数据集包含53,816条与600,817个对象掩码相关联的短语,提供了层次化的注释结构,结合了场景级别的上下文信息和精确的对象级别细节。数据生成过程通过半自动化的流程实现,结合了空间先验和视觉提示,确保了数据的质量和粒度。GeoPixelD旨在解决遥感图像中的像素级定位问题,支持高分辨率图像分析,适用于地理空间环境监测、城市规划和灾害评估等领域。
GeoPixelD is a multimodal dialogue generation dataset created by institutions including Mohammed bin Zayed University of Artificial Intelligence, and is specifically designed for remote sensing image understanding. This dataset contains 53,816 phrases associated with 600,817 object masks, and provides a hierarchical annotation structure that integrates scene-level contextual information and precise object-level details. The data generation process is implemented via a semi-automated pipeline that combines spatial priors and visual prompts, ensuring the quality and granularity of the dataset. GeoPixelD aims to address pixel-level localization tasks in remote sensing images, supports high-resolution image analysis, and is applicable to fields such as geospatial environmental monitoring, urban planning, and disaster assessment.
提供机构:
穆罕默德·本·扎耶德人工智能大学, 西澳大利亚大学, 林雪平大学, 澳大利亚国立大学
创建时间:
2025-01-24
原始信息汇总
GeoPixel 数据集概述
数据集简介
GeoPixel 是一个专门为高分辨率遥感(RS)图像理解和像素级定位设计的大型多模态模型。该模型通过处理自然语言用户查询与遥感图像,生成详细的输出,并结合动态适应输入空间分辨率和复杂性的交错掩码。
数据集亮点
- GeoPixel 模型:针对高分辨率遥感图像理解进行了优化,支持高达4K分辨率的自适应图像分区。
- GeoPixelD 数据集:支持遥感接地对话生成(RS-GCG),结合场景级上下文和对象级细节,通过先进的视觉提示技术进行标注。
- 评估基准:包含5,427个验证过的引用表达式-掩码对和61,384个标注对象,平均每个描述包含647个字符,为测试遥感模型的细粒度理解和生成能力提供了标准。
数据集架构
GeoPixel 模型由五个关键模块组成:
- 自适应图像分割器
- 视觉编码器
- 大型语言模型
- 接地视觉编码器
- 像素解码器
这些模块无缝集成,以实现高分辨率视觉感知、细粒度语义解释和遥感图像的精确像素级定位。
标注流程
GeoPixel 采用半自动标注流程,创建遥感接地对话生成(RS-GCG)数据集。该流程采用多层次分层策略,包括整体场景描述、单个实例标注和组级语义表示,结合空间和类别先验的Set-of-Mark(SOM)提示技术,提高对象特定标注的准确性和粒度。
任务性能
- 遥感接地对话生成(RS-GCG):GeoPixel 在处理用户查询时生成全面的描述性输出,并通过交错像素级掩码定位识别对象。
- 引用遥感图像分割(RRSIS):GeoPixel 能够解释不同复杂度和长度的引用表达式,准确生成精确的分割掩码。
引用
bibtex @article{shabbir2025geopixel, title={GeoPixel : Pixel Grounding Large Multimodal Models in Remote Sensing}, author={Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan}, journal={ArXiv}, year={2025}, url={https://arxiv.org/abs/2501.13925} }
搜集汇总
数据集介绍

构建方式
GeoPixelD数据集的构建采用了半自动化的流程,结合了标记集提示(Set-of-Marks Prompting)和针对遥感数据的空间先验信息,以确保数据生成过程的系统性和可控性。首先,通过开源模型生成遥感图像的描述性标题,捕捉图像的全局信息。接着,使用标记集提示技术对图像中的显著对象进行标注,并通过3×3网格划分和类别先验信息来精确定位对象。最后,对图像中的密集对象进行聚类标注,并通过多阶段的位置分析确定其空间属性。整个过程经过严格的验证和过滤,确保数据的高质量和一致性。
特点
GeoPixelD数据集的特点在于其多层次的结构化标注,涵盖了全局场景描述、单个实例标注以及密集对象群组标注。数据集包含53,816个与600,817个对象掩码相关联的短语,提供了丰富的语义描述,既包含全局场景的上下文信息,也包含局部对象的精确细节。此外,GeoPixelD支持高达4K分辨率的高清遥感图像分析,能够处理复杂的空间关系和细粒度的视觉理解任务。数据集的标注通过半自动化流程生成,确保了标注的准确性和一致性,特别适用于遥感领域的多模态模型训练和评估。
使用方法
GeoPixelD数据集的使用方法主要围绕遥感图像的多模态理解和像素级定位任务展开。首先,数据集可用于训练和评估支持像素级定位的大型多模态模型(LMM),如GeoPixel模型。通过输入高分辨率遥感图像,模型能够生成与图像中对象相关联的详细自然语言描述和分割掩码。其次,GeoPixelD可用于构建遥感领域的基准测试,评估模型在复杂场景下的视觉理解和对话生成能力。数据集的分层标注结构使得研究人员能够针对不同层次的视觉理解任务进行模型优化和性能评估,特别是在多目标分割和细粒度语义理解方面。
背景与挑战
背景概述
GeoPixelD数据集由Mohamed bin Zayed人工智能大学、西澳大利亚大学、林雪平大学和澳大利亚国立大学的研究团队于2025年提出,旨在解决遥感图像中的像素级视觉理解问题。该数据集是首个支持高分辨率遥感图像像素级定位的多模态数据集,专为遥感领域的视觉对话生成任务设计。GeoPixelD通过半自动化的标注流程生成,包含53,816条标注短语和600,817个对象掩码,提供了丰富的语义描述和精确的空间定位信息。该数据集的推出填补了遥感领域缺乏细粒度标注数据的空白,显著提升了遥感图像的理解与分析能力。
当前挑战
GeoPixelD数据集在构建和应用中面临多重挑战。首先,遥感图像的独特视角、尺度变化和小目标的存在使得像素级定位任务极为复杂,尤其是在高分辨率图像中,目标的空间分布和语义关联难以精确捕捉。其次,数据集的构建过程中,如何确保标注的准确性和一致性是一大难题,特别是在处理复杂场景时,标注的自动化流程容易产生误差。此外,现有的多模态模型在处理高分辨率遥感图像时,往往受限于输入分辨率和计算资源,难以充分利用GeoPixelD提供的细粒度信息。这些挑战要求模型在视觉理解、语义关联和计算效率之间找到平衡,以实现更高效的遥感图像分析。
常用场景
经典使用场景
GeoPixelD数据集在遥感图像分析领域具有广泛的应用,尤其是在高分辨率遥感图像的像素级理解和对话生成任务中表现突出。该数据集通过提供精细的分割掩码和语义描述,支持模型在复杂的遥感场景中进行多目标分割和区域级理解。其经典使用场景包括城市交通规划、基础设施映射、环境监测等,这些任务需要模型能够准确识别和描述图像中的小目标及其空间关系。
实际应用
在实际应用中,GeoPixelD数据集为遥感图像的自动化分析提供了强有力的支持。例如,在城市规划中,模型可以利用该数据集精确识别道路、桥梁和建筑物等基础设施,辅助交通流量分析和城市规划决策。在环境监测中,GeoPixelD能够帮助识别植被覆盖、水体变化等环境要素,为生态保护和灾害预警提供数据支持。此外,该数据集还可用于军事侦察、农业监测等领域,提升遥感图像分析的精度和效率。
衍生相关工作
GeoPixelD数据集的推出催生了一系列相关研究工作,尤其是在遥感领域的大模型应用方面。基于该数据集,研究者们开发了多种先进的遥感图像理解模型,如GeoPixel、GLaMM等,这些模型在像素级分割和对话生成任务中表现出色。此外,GeoPixelD还为遥感领域的基准测试提供了高质量的数据支持,推动了遥感图像理解技术的标准化和系统化发展。这些衍生工作不仅扩展了遥感图像分析的应用场景,也为未来的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



