SuperRS-VQA and HighRS-VQA

github2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/MiliLab/GeoLLaVA-8K

下载链接

链接失效反馈

官方服务：

资源简介：

我们为GeoLLaVA-8K引入了两个超高分辨率（UHR）视觉语言数据集：SuperRS-VQA（平均分辨率8,376×8,378）和HighRS-VQA（平均分辨率2,000×1,912），这是迄今为止最高分辨率的RS VQA数据集。总共使用了81,367个UHR图像-文本对（SuperRS-VQA + HighRS-VQA）用于GeoLLaVA-8K的监督微调。

We introduce two ultra-high-resolution (UHR) visual language datasets for GeoLLaVA-8K: SuperRS-VQA (average resolution of 8,376×8,378) and HighRS-VQA (average resolution of 2,000×1,912), which are the highest-resolution RS VQA datasets to date. A total of 81,367 UHR image-text pairs (SuperRS-VQA + HighRS-VQA) were used for the supervised fine-tuning of GeoLLaVA-8K.

创建时间：

2025-05-27

原始信息汇总

GeoLLaVA-8K数据集概述

数据集基本信息

名称: GeoLLaVA-8K
类型: 超高分辨率遥感视觉语言数据集
分辨率:
- SuperRS-VQA: 平均8,376×8,378
- HighRS-VQA: 平均2,000×1,912
数据量: 81,367个图像-文本对（SuperRS-VQA + HighRS-VQA）

数据集特点

当前最高分辨率的遥感视觉问答数据集
包含手动标注和半自动生成两种数据来源
经过去重处理以减少与现有遥感数据集的重复

数据构建流程

专家标注: 12K超高分辨率样本由专家和众包工作者手动标注
半自动生成: 使用GPT-4o生成100K中高分辨率(2K×2K)样本
数据选择: 通过LESS框架进行基于影响力的数据选择
去重处理: 去除与现有遥感数据集的重复样本

关键发现

遥感图像中的低语义密度:
- 背景标记占比高达73.14%
- 修剪背景标记可能提升模型性能
稀缺对象标记的重要性:
- 对象标记的缺失导致性能显著下降(生成式VQA下降34.9%，判别式VQA下降24.8%)

引用格式

latex @article{wang2025geollava8kscalingremotesensingmultimodal, title={GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution}, author={Fengxiang Wang and Mingshuo Chen and Yueying Li and Di Wang and Haotian Wang and Zonghao Guo and Zefan Wang and Boqi Shan and Long Lan and Yulin Wang and Hongzhen Wang and Wenjing Yang and Bo Du and Jing Zhang}, journal={arXiv preprint arXiv:2505.21375}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在遥感影像分析领域，SuperRS-VQA与HighRS-VQA数据集的构建体现了多模态数据融合的前沿理念。研究团队采用三级构建流程：首先由专业标注人员完成12,000组超高分辨率样本的人工标注；其次基于GPT-4o模型半自动化生成10万组中高分辨率样本，并运用LESS框架进行影响力筛选；最后通过去重处理确保与现有遥感数据集的独立性。这种混合式构建策略既保证了数据的专业性，又通过智能生成技术实现了规模扩展。

特点

作为当前分辨率最高的遥感视觉问答数据集，SuperRS-VQA平均分辨率达8,376×8,378像素，HighRS-VQA亦保持2,000×1,912像素的高清特性。数据集包含81,367组图像-文本对，其核心价值在于揭示了遥感影像中73.14%的背景冗余特征，并通过实验证实：选择性保留26.5个目标对象标记即可维持模型34.9%的生成式问答性能，这种稀疏语义分布特性为高效模型训练提供了重要启示。

使用方法

该数据集专为GeoLLaVA-8K多模态大模型微调设计，需配合CUDA12.1与PyTorch2.1.2环境使用。实践应用时，用户需通过HuggingFace获取数据资源，基于LongVA架构执行微调脚本。评估阶段推荐采用lmms-eval工具包，在8进程并行环境下测试模型性能。数据集特有的背景标记剪枝技术可显著降低计算开销，使模型在A800显卡上能高效处理8K级影像分析任务。

背景与挑战

背景概述

SuperRS-VQA和HighRS-VQA数据集由国防科技大学、清华大学等机构的研究团队于2025年推出，旨在解决超高分辨率遥感图像与自然语言理解的多模态融合问题。作为目前分辨率最高的遥感视觉问答数据集，其平均分辨率分别达到8,376×8,378和2,000×1,912像素，包含81,367组经过专家标注和半自动化生成的图像-文本对。该数据集通过创新的背景令牌剪枝和锚定令牌选择方法，显著提升了多模态大语言模型在遥感场景下的语义理解能力，为地理空间智能、环境监测等领域提供了重要的基准数据支撑。

当前挑战

构建过程中面临的核心挑战包括遥感图像低语义密度问题——背景令牌占比高达73.14%导致有效特征提取困难，以及关键信息集中在少量目标令牌带来的数据标注复杂度。领域应用层面需解决超高分辨率图像与语言模型的对齐难题，包括小目标特征保留、多尺度语义融合等技术瓶颈。数据集采用LESS框架进行影响度筛选和去重处理，但如何平衡自动化生成数据的质量与人工标注成本仍是持续优化的方向。

常用场景

经典使用场景

在遥感影像分析领域，SuperRS-VQA和HighRS-VQA数据集为超高分辨率视觉问答任务提供了关键支持。这些数据集通过其超高分辨率的图像-文本对，使得研究人员能够深入探索遥感影像中的复杂场景理解与语义解析。经典使用场景包括训练多模态大语言模型进行地理空间目标识别、场景分类以及自然语言交互式问答，为遥感影像的智能解译提供了丰富的数据基础。

实际应用

在实际应用中，这些数据集支撑了包括灾害监测、城市规划、农业估产等多个领域的智能化解决方案。例如，在森林火灾监测中，模型能够准确识别烟雾和火点等微小目标；在城市扩张分析中，可自动解译建筑群的空间分布特征。这些应用显著提升了遥感数据处理的效率和精度，为决策支持系统提供了可靠的技术保障。

衍生相关工作

基于SuperRS-VQA和HighRS-VQA数据集，已衍生出一系列创新性研究工作。GeoLLaVA-8K模型通过扩展视觉上下文至8K分辨率，实现了遥感影像的细粒度理解；LESS框架提出的影响力数据选择方法，为多模态数据集的构建提供了新思路。这些工作共同推动了遥感多模态大模型的发展，为后续研究奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集