SuperRS-VQA, HighRS-VQA

Name: SuperRS-VQA, HighRS-VQA
Creator: 清华大学, 中国
Published: 2025-05-28 00:05:03
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/MiliLab/GeoLLaVA-8K

下载链接

链接失效反馈

官方服务：

资源简介：

GeoLLaVA-8K数据集是一个专注于超高清遥感场景的多模态大型语言模型，能够处理高达8K分辨率的输入。该数据集基于SuperRS-VQA和HighRS-VQA构建，包含22个真实世界的子任务，是目前为止图像尺寸最大的遥感视觉语言数据集。数据集的创建过程包括半自动化的标注流程和基于影响力的数据选择方法，旨在解决超高清遥感图像中图像-文本训练数据的稀缺问题。该数据集的应用领域是遥感数据处理，旨在解决超高清遥感任务中的性能限制问题。

GeoLLaVA-8K dataset is a multimodal large language model focused on ultra-high-definition remote sensing scenarios, capable of processing inputs with resolutions up to 8K. Built upon SuperRS-VQA and HighRS-VQA, this dataset includes 22 real-world subtasks, and it is the largest remote sensing vision-language dataset in terms of image size to date. The creation process of this dataset involves a semi-automated annotation workflow and an influence-based data selection method, aiming to solve the scarcity of image-text training data for ultra-high-definition remote sensing images. The application field of this dataset is remote sensing data processing, with the purpose of addressing performance bottlenecks in ultra-high-definition remote sensing tasks.

提供机构：

清华大学, 中国

创建时间：

2025-05-28

原始信息汇总

GeoLLaVA-8K数据集概述

数据集基本信息

名称：GeoLLaVA-8K
类型：超高分率遥感视觉语言数据集
分辨率：
- SuperRS-VQA：平均8,376×8,378
- HighRS-VQA：平均2,000×1,912
数据量：81,367个超高分率图像-文本对

数据集构成

数据来源：
1. 专家和众包人员手动标注的12K超高分率样本
2. 通过GPT-4o半自动生成的100K中高分率(2K×2K)样本
数据处理：
- 采用LESS框架进行基于影响力的选择
- 对现有遥感数据集进行去重处理

关键特性

遥感图像低语义密度问题：
- 背景标记占比高达73.14%
- 目标标记仅占26.5%，但对性能影响显著
创新方法：
- 背景标记剪枝
- 锚定标记选择

引用格式

latex @article{wang2025geollava8kscalingremotesensingmultimodal, title={GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution}, author={Fengxiang Wang and Mingshuo Chen and Yueying Li and Di Wang and Haotian Wang and Zonghao Guo and Zefan Wang and Boqi Shan and Long Lan and Yulin Wang and Hongzhen Wang and Wenjing Yang and Bo Du and Jing Zhang}, journal={arXiv preprint arXiv:2505.21375}, year={2025}, }

搜集汇总

数据集介绍

构建方式

SuperRS-VQA和HighRS-VQA数据集的构建采用了多阶段精细标注流程。针对超高分辨率遥感影像的特点，研究团队首先通过专业标注人员对12,228张平均分辨率达8,376×8,376像素的影像进行人工标注，形成基础数据集。为扩充数据规模，创新性地开发了半自动化标注流程，利用GPT-4o结合现有检测标注生成100K中等分辨率样本，并通过基于LESS框架的影响力评分机制筛选出70%最具训练价值的样本。为确保数据质量，采用五级交叉验证机制，由5位领域专家和30名众包标注员经过40天标注与10天校验完成。数据集覆盖22类现实对话任务，包括目标计数、空间关系推理等复杂场景。

特点

该数据集在遥感领域具有三大显著特征：首先，其8K级超高分辨率创下当前遥感视觉问答数据集最高记录，单个图像平均包含7,000万像素级细节。其次，数据标注深度突破传统边界，不仅包含常规目标检测框，还创新性地融合了动态状态判断、异常检测解释等高级语义标签。第三，采用混合数据分布策略，将人工精标数据与半自动生成数据按影响力加权融合，既保证数据质量又提升规模效益。特别值得注意的是，数据集中关键目标平均仅占图像0.14%像素面积，精确反映了遥感影像低语义密度的本质特征。

使用方法

该数据集专为训练面向超高分辨率遥感的多模态大模型设计。使用时应采用两阶段策略：首先通过背景令牌剪枝技术，基于语义相似度对图像背景区域进行自适应聚类压缩；随后执行锚定令牌选择，利用视觉编码器的[CLS]注意力机制保留关键目标令牌。建议将8K图像压缩至24个代表性令牌，在8GPU节点采用ZeRO-2并行策略，视觉组件与投影层分别设置1e-6和5e-6差异化学习率。对于下游任务微调，推荐采用LESS框架进行数据影响力分析，优先选择对验证集性能影响最大的样本子集。数据集支持端到端训练和基于提示的少样本迁移两种典型应用模式。

背景与挑战

背景概述

SuperRS-VQA和HighRS-VQA数据集由多所中国顶尖高校和研究机构联合开发，旨在解决超高分辨率（UHR）遥感影像在视觉语言模型训练中的数据稀缺问题。该数据集创建于2025年，包含平均分辨率分别为8,376×8,376和2,000×1,912的遥感图像，覆盖22种现实对话任务。作为目前分辨率最高的遥感视觉问答数据集，其创新性地突破了传统遥感数据集的规模限制，为地理空间智能领域提供了重要的基准资源。

当前挑战

该数据集面临的核心挑战体现在两个方面：首先在领域问题层面，需解决超高分辨率影像带来的语义稀疏性问题，即关键目标信息仅占整幅图像的极小比例（平均0.14%-1.02%），而大量背景区域（如海洋、森林）构成信息冗余；其次在构建过程中，人工标注8K级影像面临内存溢出和低质量输出的技术瓶颈，为此研究团队开发了半自动化标注流程，结合GPT-4o生成与人工校验的混合方法，并通过基于梯度的数据选择算法（LESS框架）优化样本质量，最终在40天密集标注中完成12,228组超高分辨率样本的构建。

常用场景

经典使用场景

SuperRS-VQA和HighRS-VQA数据集作为迄今为止分辨率最高的遥感视觉问答数据集，主要应用于超高清遥感影像的多模态大语言模型训练。这些数据集覆盖了22种现实对话任务，包括物体计数、场景分类、空间关系理解等经典场景，为模型提供了丰富的视觉和语言对齐样本。在GeoLLaVA-8K等模型的训练中，这些数据通过8K级分辨率影像的细粒度标注，显著提升了模型对地物细节的感知能力。

实际应用

在实际应用中，该数据集支撑的模型可服务于精准农业监测、城市发展规划、灾害应急响应等关键领域。例如，在路网规划任务中，模型能准确分析8K影像中的道路拓扑关系；在异常检测方面，可识别河流淤塞或山体滑坡等细微变化。数据集包含的12万条高质量标注样本，显著提升了实际业务场景中的自动化分析精度。

衍生相关工作

基于该数据集衍生的GeoLLaVA-8K模型在XLRS-Bench上创造了50.2%的最新性能记录，超越了GPT-4o等通用模型。相关技术启发了后续如LLaVA-UHD等工作的令牌压缩方法，并推动了RSGPT、EarthGPT等遥感专用大模型的发展。数据集构建中提出的半自动标注流程和基于LESS框架的数据选择方法，也成为后续多模态数据构建的参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集