GRES
收藏arXiv2025-05-06 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.02829v1
下载链接
链接失效反馈官方服务:
资源简介:
GRES数据集是一个针对遥感影像的地理空间推理分割数据集,包含27,615个像素级注释,覆盖9,205张图像。数据集由PreGRES和多模态地理空间预训练数据集PreGRES组成,后者包含超过1百万个问答对。该数据集专门设计用于处理规模变化、对象多样性和复杂推理查询,为地理空间视觉语言模型的进步提供了关键资源。
The GRES dataset is a geospatial reasoning segmentation dataset targeting remote sensing imagery, containing 27,615 pixel-level annotations covering 9,205 images. The dataset consists of PreGRES and a multimodal geospatial pre-trained dataset, the latter of which includes over 1 million question-answer pairs. This dataset is specifically designed to handle scale variations, object diversity and complex reasoning queries, serving as a critical resource for advancing geospatial vision-language models.
提供机构:
加利福尼亚大学伯克利分校电子工程与计算机科学系
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
GRES数据集的构建采用了半合成方法,通过精心设计的流程将xView数据集中的高分辨率卫星图像转化为具有自然语言查询和像素级分割掩码的样本。构建过程分为两个关键阶段:首先基于视觉独特性与语义显著性对原始检测框进行筛选,随后利用大语言模型生成具有空间指代能力的自然语言查询。每个样本通过GeoSAM模型生成高精度分割掩码,并采用128点/边的高分辨率配置确保细节保留,最终形成包含9,205张图像和27,615个标注的多模态数据集。
特点
该数据集的核心特征体现在三个方面:空间推理的复杂性,查询语句涵盖显性位置描述与隐性特征指代;尺度多样性,目标物体从微小车辆到大型建筑跨度达三个数量级;以及语义细粒度,针对60个地物类别设计了具有判别性的视觉特征描述。数据分布方面,通过象限划分和类别平衡策略,确保了空间位置与物体类别的均匀覆盖,测试集特别设置了小型物体(<500像素)和大型物体的专项评估子集。
使用方法
GRES数据集主要用于训练和评估遥感领域的视觉-语言分割模型。使用时需加载图像-查询-掩码三元组,其中查询语句可作为模型输入引导分割预测。评估指标推荐采用广义交并比(gIoU)和累积交并比(cIoU),特别建议对小型物体单独分析以检验细粒度理解能力。数据集已预分割为训练(7,205)、验证(500)和测试(1,500)集,测试集进一步包含488个大物体和1,023个小物体样本,支持模型在跨尺度场景下的鲁棒性验证。
背景与挑战
背景概述
GRES(Geospatial Reasoning Segmentation Dataset)是一个专门为遥感图像设计的视觉语言模型数据集,由加州大学伯克利分校的研究团队于2025年创建。该数据集旨在解决遥感图像中复杂自然语言查询与像素级分割之间的关联问题,填补了现有模型在遥感领域推理分割能力的空白。GRES包含27,615个标注,覆盖9,205张图像,并辅以多模态预训练数据集PreGRES(包含超过100万问答对)。其核心研究问题是通过语言指令实现遥感图像中多目标对象的精准分割,推动地理空间人工智能在灾害响应、环境监测等领域的应用。该数据集的发布显著提升了模型在遥感视觉描述任务(如BLEU-4提升10.04%)和推理分割任务(如gIoU提升143.36%)的性能,成为连接通用视觉语言模型与遥感专业需求的重要桥梁。
当前挑战
GRES面临的挑战主要体现在两个维度:领域问题与构建过程。在领域层面,遥感图像特有的多尺度性(如城市与树木的尺寸差异)、目标类间视觉相似性(如小型车辆与建筑物的混淆)以及复杂空间关系(如远距离物体交互)导致传统自然图像模型迁移性能骤降。构建过程中,数据稀缺性与标注复杂性构成主要障碍:1)现有遥感数据缺乏自然语言查询与图像的配对标注;2)半合成数据生成需依赖xView种子数据集,通过GeoSAM生成像素级掩码时易受遮挡或模糊边界影响;3)语言查询的歧义性(如“底部右侧的飞机”可能对应多个目标)要求严格的唯一性过滤与人工验证。此外,模型需平衡文本生成与分割损失(λtxt与λmask的权重优化),并解决Ground Truth因标注工具局限性导致的误差传导问题。
常用场景
经典使用场景
GRES数据集在遥感图像的语言引导分割任务中展现了卓越的应用价值。通过结合自然语言查询与高分辨率卫星图像,该数据集为训练和评估视觉语言模型(如LISAT)提供了丰富的标注数据。其独特的半合成数据生成流程,确保了模型在处理复杂空间关系和多样化地物时的鲁棒性,成为遥感领域多模态研究的基准工具。
解决学术问题
GRES数据集有效解决了遥感图像中复杂语义分割的三大核心挑战:跨尺度目标识别(如同时检测城市群与单棵树)、细粒度语义区分(如区分外形相似的汽车与建筑),以及隐含空间关系的自然语言表达(如‘洪水易发区’的动态定义)。其27,615条像素级标注与自然语言查询的配对,填补了开放域推理分割模型在遥感领域适应性不足的空白。
衍生相关工作
GRES催生了遥感多模态模型的系列创新,如EarthGPT在场景分类中的扩展应用、GeoChat的区域级视觉对话系统等。其数据合成范式更启发了后续工作GSVA的[REJ]令牌设计,用于处理模糊查询目标。这些衍生研究共同推动了地理空间人工智能从单一检测向可解释推理的范式转变。
以上内容由遇见数据集搜集并总结生成



