XHRBench

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/FelixKAI/XHRBench

下载链接

链接失效反馈

官方服务：

资源简介：

*RSHR*是一个用于评估多模态大语言模型在超高分辨率遥感数据上性能的基准数据集。该数据集包含5,329张全场景图像，原生分辨率从4K到3亿像素（300 MP）不等。数据集汇集了来自DOTA-v2.0、MiniFrance、FAIRIM、HRSCD、XLRS-Bench等专家标注的数据，以及自有的100MP无人机捕获图像，涵盖了多种真实世界的遥感场景。数据集支持9种感知类别和4种推理类型，任务包括多项选择视觉问答（MCQ）、开放式视觉问答（OEQ）、图像描述（IC）和单图像评估（SIE）。评估流程采用两阶段的人类-LLM对抗验证（LLM对抗过滤+人工审查），以确保问题需要视觉理解才能回答。

创建时间：

2025-11-24

原始信息汇总

RSHR 数据集概述

数据集基本信息

数据集名称: RSHR
许可证: Apache 2.0
任务类别: 问答
语言: 英语
发布机构: 未明确说明

数据集核心特点

大规模超高分辨率基准: 旨在评估多模态大语言模型在遥感领域的细粒度感知和复杂推理能力。包含 5,329 张全场景图像，原生分辨率从 4K 到 3 × 10^8 像素。
多样化的专家标注数据源: 汇集了来自 DOTA-v2.0, MiniFrance, FAIRIM, HRSCD, XLRS-Bench 以及自有的 100MP 无人机捕获图像 的专家标注数据，覆盖了多种真实世界遥感场景。
全面的任务与严谨的评估流程: 涵盖 9 个感知类别 和 4 种推理类型，支持单图像和多图像/多轮对话。采用两阶段 人类-LLM 对抗验证 流程来消除仅凭语言先验即可解决的问题，确保模型必须真正“看到”图像才能回答。

任务套件

多项选择视觉问答: 评估在固定答案空间内的决策能力，涵盖单轮和多轮对话。
开放式视觉问答: 评估不依赖选项先验的自由形式视觉理解和组合能力，更准确地衡量 MLLM 能力。
图像描述: 要求为全局场景和区域细节提供简洁、准确的描述。
单图像评估: 专门用于测试对超高分辨率图像的深度理解，探究每张图像的多尺度感知和推理。

评估结果

评估模型: 评估了 14 个最先进的模型，包括通用 MLLM 和遥感专用模型。
评估任务: 涵盖 多项选择视觉问答、开放式视觉问答 和 图像描述。
关键发现:
- 闭源模型在多项选择视觉问答排行榜上占主导地位，但在需要细粒度视觉证据的复杂推理任务上仍存在困难。
- 通过开放式视觉问答评估分析了感知与推理能力的相关性。
- 单图像评估揭示了分辨率支持与性能之间存在的关键鲁棒性问题。

搜集汇总

数据集介绍

构建方式

在遥感科学领域，高分辨率影像的精细感知与复杂推理能力评估成为多模态大语言模型发展的关键挑战。RSHR基准数据集通过整合多个权威遥感数据源，包括DOTA-v2.0、MiniFrance、FAIRIM、HRSCD及XLRS-Bench，并结合自主采集的100MP无人机影像，构建了涵盖5,329幅全场景图像的庞大集合。其构建过程采用两阶段人类-大语言模型对抗验证流程，先通过大语言模型进行对抗性过滤，再经人工审核，有效剔除了仅凭语言先验即可解答的问题，确保评估任务真正依赖视觉信息。

特点

该数据集以超高清分辨率著称，影像原生分辨率覆盖4K至3亿像素，为模型提供了极致的细节层次。其任务设计全面，涵盖9种感知类别与4类推理类型，支持单图、多图及多轮对话评估。通过多选视觉问答、开放式视觉问答、图像描述及单图评估四大任务族，RSHR能够系统检验模型在颜色、方向、区域定位等感知维度的能力，以及在组合推理、空间关系等复杂场景下的表现。

使用方法

研究人员可利用RSHR基准对多模态大语言模型进行系统性评估，尤其适用于遥感领域的精细视觉理解任务。数据集支持以单图或对话形式输入，通过多选问答、开放生成及描述生成等任务输出模型预测。评估时建议遵循其官方流程，重点关注模型在超高分辨率影像上的多尺度感知与推理鲁棒性，并可利用其提供的人类-大语言模型对抗验证机制，确保评估结果的有效性与可靠性。

背景与挑战

背景概述

遥感领域正经历从传统图像分析向多模态大语言模型（MLLMs）融合的范式转变，亟需能够评估模型在超高分辨率数据上细粒度感知与复杂推理能力的基准。在此背景下，研究团队于2025年11月正式发布了RSHR（XHRBench）数据集。该数据集由大规模、超高分辨率的遥感图像构成，涵盖从4K至3亿像素的原始分辨率，并整合了DOTA-v2.0、MiniFrance等多个权威专家标注数据源。其核心研究问题聚焦于如何系统评估MLLMs在真实世界遥感场景中的精细视觉理解与多步逻辑推理能力，旨在推动遥感智能分析向更深层次的认知与决策支持迈进。

当前挑战

RSHR数据集所针对的领域挑战在于，现有MLLMs在超高分辨率遥感图像的细粒度感知与复杂空间推理方面存在显著不足，模型往往难以从海量像素中提取关键视觉证据并进行多步逻辑推演。在构建过程中，研究团队面临两大核心挑战：一是如何有效聚合多源、多分辨率的专家标注数据，确保数据在场景多样性与标注质量上的一致性；二是如何设计严谨的评估流程以消除语言先验的干扰，为此团队采用了“人类-LLM对抗验证”的两阶段过滤机制，确保评测问题必须依赖真实的视觉理解才能解答，从而提升基准的可靠性与判别力。

常用场景

经典使用场景

在遥感领域，随着多模态大语言模型的兴起，评估模型在超高分辨率图像上的细粒度感知与复杂推理能力成为关键需求。RSHR数据集通过整合超过五千张原生分辨率从4K至3亿像素的全场景图像，构建了一个涵盖九种感知类别与四种推理类型的综合基准。其经典使用场景集中于对模型进行多选视觉问答、开放式视觉问答、图像描述以及单图像评估，尤其适用于检验模型在需要精确视觉证据的复杂遥感任务中的表现，例如对大规模城市布局的定向描述或对微小地物的颜色与方位识别。

实际应用

在实际应用中，RSHR数据集支撑着高精度遥感图像解译系统的开发与优化。其涵盖的多样化真实场景，如城市监测、环境评估与灾害响应，使得基于该数据集训练的模型能够应用于城市规划中的建筑识别、农业监测中的作物分类、以及应急管理中受损区域的快速评估。通过提升模型对超高分辨率图像的细粒度理解能力，该数据集助力于构建更智能、更可靠的自动化遥感分析工具，为地理信息系统、智慧城市与国防安全等领域提供关键技术支撑。

衍生相关工作

围绕RSHR数据集，已衍生出一系列专注于遥感多模态理解的经典研究工作。例如，通用模型如GPT-4o与Gemini 1.5 Pro在该基准上的评估揭示了其在复杂推理任务上的局限性，进而催生了针对遥感领域的专用模型优化，如GeoChat与VHM。这些工作不仅推动了模型架构在视觉-语言融合方面的创新，还促进了评估协议的发展，如单图像评估协议对分辨率鲁棒性的深入探究，为后续研究在超高分辨率多模态学习、对抗性样本构建以及跨数据集迁移学习等方面奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集