RSHR

github2026-01-03 更新2026-01-05 收录

下载链接：

https://github.com/Yunkaidang/RSHR

下载链接

链接失效反馈

官方服务：

资源简介：

RSHR是一个用于评估多模态大语言模型在遥感领域细粒度感知和复杂推理能力的基准数据集，包含5,329张全场景图像，原始分辨率从4K到3×10^8像素（300 MP）。数据集汇集了来自DOTA-v2.0、MiniFrance、FAIRIM、HRSCD、XLRS-Bench以及自有的100MP无人机捕获图像的专家标注数据，涵盖了多种真实世界遥感场景。数据集支持9种感知类别和4种推理类型，包括多项选择视觉问答（MCQ）、开放式视觉问答（OEQ）、图像描述（IC）和单图像评估（SIE）等任务。

RSHR is a benchmark dataset for evaluating the fine-grained perception and complex reasoning capabilities of multimodal large language models in the remote sensing domain. It contains 5,329 full-scene images with original resolutions ranging from 4K to 3×10^8 pixels (300 MP). The dataset incorporates expert-annotated data from DOTA-v2.0, MiniFrance, FAIRIM, HRSCD, XLRS-Bench, and our own 100 MP drone-captured images, covering a variety of real-world remote sensing scenarios. It supports 9 perception categories and 4 reasoning types, including tasks such as multiple-choice visual question answering (MCQ), open-ended visual question answering (OEQ), image captioning (IC), and single-image evaluation (SIE).

创建时间：

2025-12-05

原始信息汇总

RSHR 数据集概述

数据集基本信息

数据集名称：RSHR
核心定位：一个用于评估多模态大语言模型在超高分辨率遥感数据上进行细粒度感知与复杂推理的基准数据集。
数据规模：包含 5,329 张全场景图像。
图像分辨率：原生分辨率从 4K 到 3 × 10^8 像素（300 MP）。

数据来源与构成

数据来源：汇集了来自 DOTA-v2.0, MiniFrance, FAIRIM, HRSCD, XLRS-Bench 以及自采集的 100MP 无人机图像 的专家标注数据。
场景覆盖：涵盖多种真实世界遥感场景。

任务与评估体系

任务类别：涵盖 9 个感知类别（如颜色、方向、区域定位）和 4 种推理类型。
主要任务族：
1. 多项选择视觉问答：评估在固定答案空间内的决策能力，支持单轮和多轮对话。
2. 开放式视觉问答：评估无需依赖选项先验的自由形式视觉理解和组合能力。
3. 图像描述：要求对全局场景（整图摘要）和区域细节（定向区域）进行简洁、准确的描述。
4. 单图像评估：专门用于测试对超高分辨率图像的深度理解，探究每张图像上的多尺度感知与推理。
评估流程：采用两阶段 “人类-LLM对抗性验证” 流程（LLM对抗性过滤 + 人工审查），以消除仅凭语言先验即可解决的问题，确保模型必须真正“看到”图像才能回答。

评估结果与关键发现

评估模型：评估了 14 个最先进的模型，包括通用MLLM和遥感专用模型。
主要评估项：覆盖多项选择视觉问答、开放式视觉问答和图像描述。
关键洞察：单图像评估揭示了模型性能与分辨率支持之间的关键鲁棒性问题。

相关资源

论文地址：https://arxiv.org/abs/2512.17319
基准数据集地址：https://huggingface.co/datasets/FelixKAI/XHRBench

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，构建高质量数据集对于推动多模态大语言模型的发展至关重要。RSHR数据集的构建过程整合了多个权威遥感数据源，包括DOTA-v2.0、MiniFrance、FAIRIM、HRSCD以及XLRS-Bench，并补充了自主采集的100MP无人机影像。通过精心设计的双阶段对抗验证流程，即先利用大语言模型进行对抗性过滤，再辅以人工审核，有效剔除了仅凭语言先验即可解答的问题，确保模型必须依赖视觉信息才能正确响应。

使用方法

研究人员可通过Hugging Face平台获取RSHR数据集，并依据其设计的四大任务族展开评估。对于多项选择题，可采用标准准确率进行度量；开放式问答则需借助文本相似度或人工评判来评估回答质量。图像描述任务要求模型生成简洁准确的描述，并通过自动化指标与人工审核相结合的方式进行评分。单图评估协议专门用于探测模型对超高分辨率图像的多尺度感知与推理能力，为模型在复杂遥感场景下的鲁棒性提供深入洞察。

背景与挑战

背景概述

随着多模态大语言模型在通用视觉理解任务上取得显著进展，其在专业领域，尤其是高分辨率遥感图像分析中的应用潜力亟待评估。RSHR基准数据集于2025年11月由相关研究团队正式发布，旨在系统评估MLLMs在超高分辨率遥感数据上的细粒度感知与复杂推理能力。该数据集整合了DOTA-v2.0、MiniFrance等多个权威遥感数据源的专家标注，并包含自主采集的百万像素级无人机影像，共涵盖5329幅全场景图像，其原生分辨率从4K至3亿像素不等。通过构建覆盖九类感知范畴与四种推理类型的综合任务体系，RSHR为推进遥感智能解译向深层次语义理解发展提供了关键的评估基准。

当前挑战

RSHR数据集所应对的核心领域挑战在于，现有MLLMs难以在超高分辨率遥感影像中实现可靠的细粒度视觉定位与多层次语义关联推理。遥感场景中地物尺度差异巨大、形态复杂，且常需结合地理上下文进行解释，这对模型的视觉感知精度与知识融合能力提出了极高要求。在数据集构建过程中，挑战主要体现在如何确保评估问题无法仅凭语言先验解答，为此团队设计了两阶段的人机对抗验证流程，通过大语言模型对抗过滤与人工复核相结合，严格筛选必须依赖图像视觉证据才能回答的高质量样本，以消除评估偏差。

常用场景

经典使用场景

在遥感科学领域，高分辨率影像的精细解译一直是推动地理信息智能化的核心挑战。RSHR数据集作为专为多模态大语言模型设计的超高清遥感基准，其经典使用场景聚焦于评估模型在极高分影像上的细粒度感知与复杂推理能力。通过整合多达5,329幅全场景图像，分辨率覆盖4K至3亿像素，该数据集支持多选视觉问答、开放式视觉问答、图像描述及单图像评估等多种任务范式，为研究者提供了一个系统性的测试平台，用以检验模型在真实世界遥感场景中的多尺度信息提取与逻辑推断性能。

解决学术问题

遥感影像分析长期面临高分辨率数据下目标识别模糊、上下文推理不足等学术难题。RSHR数据集通过引入人类-大语言模型对抗验证流程，有效过滤了仅凭语言先验即可解答的问题，迫使模型必须依赖视觉证据进行响应，从而解决了评估中存在的偏差问题。该数据集涵盖了9类感知类别与4种推理类型，不仅促进了模型在颜色、方向、区域定位等基础感知任务上的进步，更推动了其在多图像对话、复杂场景理解等高级认知任务上的研究，为遥感领域多模态智能模型的公平、严谨评估奠定了新的标准。

实际应用

在实际应用层面，RSHR数据集为城市管理、环境监测、灾害评估等遥感关键领域提供了重要的技术验证基础。其包含的无人机捕获超高清影像及多样化的真实场景数据，能够直接服务于智慧城市中的建筑物检测、土地利用分类、交通流量分析等具体任务。通过在该数据集上训练与评估的模型，可提升对超高分辨率影像的自动化解译精度与效率，辅助决策者快速获取准确的地理空间情报，从而优化资源调配、增强应急响应能力，推动遥感技术向更智能、更实用的方向演进。

数据集最近研究