ME-RSRG

github2026-03-21 更新2026-03-22 收录

下载链接：

https://github.com/CV-ShuchangLyu/ME-RSRG

下载链接

链接失效反馈

官方服务：

资源简介：

ME-RSRG是一个用于遥感中多实体推理定位的新基准数据集，包含7,162张图像和12,091个图像-文本实例，分为10,305个训练实例和1,786个测试实例。数据集构建遵循5步流程：数据集收集、实例选择、手动标注、专家评估和CoT生成。

ME-RSRG is a novel benchmark dataset for multi-entity reasoning-based localization in remote sensing. It consists of 7,162 images and 12,091 image-text instances, which are split into 10,305 training instances and 1,786 test instances. The dataset construction follows a five-step workflow: dataset collection, instance selection, manual annotation, expert evaluation, and Chain-of-Thought (CoT) generation.

创建时间：

2026-03-03

原始信息汇总

ME-RSRG 数据集概述

数据集基本信息

数据集名称：ME-RSRG (Multi-Entity Reasoning Grounding in Remote Sensing)
核心目标：为遥感领域中的多实体推理与定位提供基准数据集。
发布状态：原始版本已发布。
相关论文：https://arxiv.org/abs/2603.12788

数据集内容与规模

图像数量：7,162 张。
图文实例数量：12,091 个。
数据划分：
- 训练实例：10,305 个。
- 测试实例：1,786 个。
数据来源：由 rsvg_hr、dior_rsvg、opt-rsvg 三个文件夹构成。
标注格式：原始图像及 XML 格式的标注文件。

数据集特点与构建

核心挑战：针对大规模空间布局、多实体歧义和结构化推理需求。
构建流程：遵循五步流程：数据集收集、实例选择、人工标注、专家评估、思维链（CoT）生成。
特殊子集：提供包含 <think></think> 标签的 train_with_think 子集，用于监督微调（SFT）阶段。该子集是 train 集的子集。

数据使用与实验设置

训练数据：实验中合并使用 train 和 val 集进行训练，使用 test 集进行测试。
训练文件：提供三个 .json 文件，支持 ms-swift 数据格式，用于监督微调（SFT）和基于群体策略优化的奖励驱动（GRPO）训练阶段。
文件说明：在 Annotations 文件夹中为每个数据源文件夹提供了列表文件（.txt）。

获取方式

原始数据集：可通过 Google Drive 下载（https://drive.google.com/file/d/1GRrDBYmYr0IuLXENR5ZmXmvswjcY0SEI/view?usp=drive_link）。
未来计划：计划发布 Hugging Face / ModelScope 版本。

搜集汇总

数据集介绍

构建方式

在遥感影像多实体推理领域，数据集的构建需兼顾地理空间复杂性与语义关联的精确性。ME-RSRG数据集通过严谨的五步流程构建：首先从现有遥感数据源中收集原始影像，随后基于空间布局多样性与实体分布密度筛选代表性实例；每幅影像均经过人工标注，详细标识多个地理实体的边界与属性，并由领域专家进行质量评估以确保标注的准确性与一致性；最终通过思维链生成技术，为每个实例构建结构化的推理描述，从而形成包含7,162幅影像和12,091个图文实例的高质量基准数据集。

特点

该数据集的核心特点在于其专注于多实体推理与空间关联的建模。影像覆盖大规模地理区域，呈现复杂的空间布局与实体交互，例如城市建筑群、自然地貌等多类型地物共存场景；标注不仅包含实体位置与类别，更强调实体间的语义关系与推理逻辑，通过引入思维链标签明确表达推理过程。数据划分上，训练集与测试集分别包含10,305和1,786个实例，并额外提供带推理标签的子集，支持从监督微调到强化学习的多阶段模型优化。

使用方法

使用ME-RSRG数据集时，研究者可依据其结构化设计开展多阶段实验。数据集以标准JSON格式提供，兼容主流训练框架如ms-swift。在监督微调阶段，可利用带思维链标签的训练子集初始化模型，学习实体感知的推理模式；随后在强化学习阶段，结合实体感知奖励机制与GRPO策略，进一步优化模型对多实体关系的理解与定位能力。评估时，测试集提供独立基准，以衡量模型在复杂遥感场景中的推理与接地性能。

背景与挑战

背景概述

遥感影像解译领域正经历从单一目标检测向复杂场景理解与推理的深刻转变。在此背景下，ME-RSRG数据集于2026年由Shuchang Lyu等研究人员提出，旨在构建一个面向多实体推理与定位的标准化基准。该数据集聚焦于解决遥感场景中多个地理实体间的空间关系、功能关联及逻辑推理问题，其核心研究在于推动视觉-语言基础模型在遥感领域的深度应用，通过引入思维链标注，为模型提供了可解释的推理路径。ME-RSRG的建立标志着遥感智能分析迈入了高阶认知阶段，对自动驾驶、城市规划及环境监测等应用具有显著的推动作用。

当前挑战

ME-RSRG数据集所针对的多实体推理定位任务，本身面临诸多固有挑战：遥感影像通常涵盖广阔地理范围，实体尺度差异巨大，且存在严重的遮挡与重叠现象，导致模型难以准确分离并关联多个目标；此外，自然语言查询中常蕴含隐含的空间与逻辑约束，要求模型具备深层次的常识推理与上下文理解能力。在数据集构建过程中，挑战同样显著：需从异构遥感数据源中筛选具有代表性的大尺度场景，并依赖专业标注人员进行精细的多轮边界框标注与思维链描述生成，此过程耗时费力且需保证标注的一致性与逻辑严谨性，以避免引入歧义或错误的前提假设。

常用场景

经典使用场景

在遥感图像理解领域，ME-RSRG数据集为多实体推理与定位任务提供了标准化的评估基准。该数据集通过包含7,162幅高分辨率遥感图像及12,091个图像-文本实例，专门设计用于支持对大规模空间布局中多个地理实体的联合推理与视觉定位。其经典使用场景集中于训练和验证视觉-语言基础模型，以处理遥感图像中常见的复杂空间关系和语义歧义问题，例如同时识别并定位图像中的建筑物、道路、植被等多种实体，并基于自然语言查询进行精确的空间推理。

实际应用

在实际应用层面，ME-RSRG数据集可服务于城市规划、环境监测、灾害评估等地理信息相关领域。例如，在城市管理中，系统可利用该数据集训练的模型，自动分析卫星图像中各类基础设施的分布与状态，回答诸如“住宅区附近是否存在足够的绿地空间”等复杂查询。这种能力有助于提升决策效率，实现对大范围地理区域的快速、精准语义理解，为智慧城市和可持续发展提供技术支持。

衍生相关工作

围绕ME-RSRG数据集，研究者提出了实体感知推理框架（EAR），该框架采用监督微调与基于实体感知奖励的GRPO两阶段优化策略，显著提升了模型在多实体推理任务上的性能。这一工作启发了后续研究，例如探索更高效的视觉-语言对齐方法、设计针对遥感场景的专用推理架构，或将多实体推理能力迁移到其他地理空间分析任务中，从而丰富了遥感人工智能的研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集