RS-M3Bench

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/RemoteReason-JLU/RS-M3Bench

下载链接

链接失效反馈

官方服务：

资源简介：

RS-M^3Bench是一个统一平台，用于评估遥感视觉语言模型在13个任务上的表现，这些任务从细粒度分割到大规模视觉问答（VQA）都有涉及。数据集注释文件中包含了对象的四角坐标（HBB和OBB），以及所有对象角点的多边形坐标。原始的STAR/ReCom1M数据集使用OBB定位对象，而在本数据集中，进一步利用SAM将OBB转换为多边形坐标。

创建时间：

2025-05-15

搜集汇总

数据集介绍

构建方式

在遥感视觉语言理解领域，RS-M3Bench数据集通过整合多源遥感数据与标注信息构建而成。该数据集以STAR和ReCom1M等现有遥感数据集为基础，对其原有的定向边界框标注进行扩展，运用分割一切模型将定向边界框转换为多边形标注，从而增强空间细节的表示能力。这种构建方式不仅保留了原始数据的几何特性，还通过统一标注格式实现了多任务评估框架的兼容性。

特点

RS-M3Bench数据集涵盖13项遥感视觉语言任务，从细粒度分割到大规模视觉问答，形成多维度的评估体系。其标注体系包含水平边界框、定向边界框和多边形三种空间表示方法，支持对遥感目标的几何特性进行精细化描述。数据集采用流式加载技术，适配超大规模数据处理需求，为遥感领域模型提供标准化的性能基准平台。

使用方法

通过HuggingFace数据集库可便捷加载RS-M3Bench，使用streaming模式实现动态数据流处理。开发者只需指定数据集名称与分割类型，即可获取包含多模态标注的训练数据。该数据集支持视觉问答与图像描述等任务的直接训练，其统一标注格式便于跨任务模型的迁移学习与性能评估。

背景与挑战

背景概述

遥感视觉语言理解作为地理信息科学的前沿交叉领域，其发展深度依赖高质量多任务基准数据集。RS-M³Bench由RemoteReason-JLU团队于2023年构建，该数据集整合了STAR与ReCom1M等经典遥感资源，通过引入Segment Anything Model技术将原始旋转边界框转化为多边形标注体系，构建起覆盖13项任务的统一评估框架。这一创新性工作有效解决了遥感领域长期存在的任务割裂问题，为遥感视觉语言模型的系统性评估提供了标准化范本，显著推动了多模态地理空间智能的技术演进。

当前挑战

在遥感视觉语言模型评估领域，核心挑战在于如何建立兼顾细粒度语义理解与大规模场景解析的统一基准。RS-M³Bench需同时应对图像描述生成、视觉问答等13类任务的评估需求，这要求数据集具备跨尺度标注体系与多模态对齐能力。构建过程中面临标注一致性的技术难题，特别是将旋转边界框转化为多边形标注时，需通过SAM模型保持几何特征的精确转换，同时确保海量遥感影像与文本描述间的语义关联强度，这些因素共同构成了数据集构建的复杂性挑战。

常用场景

经典使用场景

在遥感视觉语言模型评估领域，RS-M3Bench作为统一基准平台，其经典应用体现在对13项任务的系统评测，涵盖从细粒度图像分割到大规模视觉问答的完整流程。该数据集通过整合多模态遥感数据，支持模型在对象检测、场景分类及语义理解等任务上的端到端性能验证，为跨任务泛化能力研究提供了标准化实验环境。

解决学术问题

该数据集有效解决了遥感领域多模态模型评估体系碎片化的核心问题，通过统一标注规范与任务框架，显著提升了不同方法间的可比性。其创新性标注转换机制将定向边界框转化为多边形标注，突破了传统遥感目标检测中旋转敏感性的技术瓶颈，为跨模态表征学习与空间推理任务建立了可靠的验证基础。

衍生相关工作

该数据集已催生系列创新研究，包括基于SAM的标注转换框架改进、多尺度遥感特征融合网络等。相关成果在CVPR、ICCV等顶级会议形成专门研讨会，推动了如遥感视觉语言预训练模型RS-CLIP、跨模态检索系统GeoRAG等代表性工作的演进，持续拓展着遥感智能解译的技术边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集