five

SuperRS-VQA, HighRS-VQA|遥感图像处理数据集|视觉语言理解数据集

收藏
arXiv2025-05-28 更新2025-05-29 收录
遥感图像处理
视觉语言理解
下载链接:
https://github.com/MiliLab/GeoLLaVA-8K
下载链接
链接失效反馈
资源简介:
GeoLLaVA-8K数据集是一个专注于超高清遥感场景的多模态大型语言模型,能够处理高达8K分辨率的输入。该数据集基于SuperRS-VQA和HighRS-VQA构建,包含22个真实世界的子任务,是目前为止图像尺寸最大的遥感视觉语言数据集。数据集的创建过程包括半自动化的标注流程和基于影响力的数据选择方法,旨在解决超高清遥感图像中图像-文本训练数据的稀缺问题。该数据集的应用领域是遥感数据处理,旨在解决超高清遥感任务中的性能限制问题。
提供机构:
清华大学, 中国
创建时间:
2025-05-28
原始信息汇总

GeoLLaVA-8K数据集概述

数据集基本信息

  • 名称:GeoLLaVA-8K
  • 类型:超高分率遥感视觉语言数据集
  • 分辨率
    • SuperRS-VQA:平均8,376×8,378
    • HighRS-VQA:平均2,000×1,912
  • 数据量:81,367个超高分率图像-文本对

数据集构成

  • 数据来源
    1. 专家和众包人员手动标注的12K超高分率样本
    2. 通过GPT-4o半自动生成的100K中高分率(2K×2K)样本
  • 数据处理
    • 采用LESS框架进行基于影响力的选择
    • 对现有遥感数据集进行去重处理

关键特性

  • 遥感图像低语义密度问题
    • 背景标记占比高达73.14%
    • 目标标记仅占26.5%,但对性能影响显著
  • 创新方法
    • 背景标记剪枝
    • 锚定标记选择

相关资源

引用格式

latex @article{wang2025geollava8kscalingremotesensingmultimodal, title={GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution}, author={Fengxiang Wang and Mingshuo Chen and Yueying Li and Di Wang and Haotian Wang and Zonghao Guo and Zefan Wang and Boqi Shan and Long Lan and Yulin Wang and Hongzhen Wang and Wenjing Yang and Bo Du and Jing Zhang}, journal={arXiv preprint arXiv:2505.21375}, year={2025}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
SuperRS-VQA和HighRS-VQA数据集的构建采用了多阶段精细标注流程。针对超高分辨率遥感影像的特点,研究团队首先通过专业标注人员对12,228张平均分辨率达8,376×8,376像素的影像进行人工标注,形成基础数据集。为扩充数据规模,创新性地开发了半自动化标注流程,利用GPT-4o结合现有检测标注生成100K中等分辨率样本,并通过基于LESS框架的影响力评分机制筛选出70%最具训练价值的样本。为确保数据质量,采用五级交叉验证机制,由5位领域专家和30名众包标注员经过40天标注与10天校验完成。数据集覆盖22类现实对话任务,包括目标计数、空间关系推理等复杂场景。
特点
该数据集在遥感领域具有三大显著特征:首先,其8K级超高分辨率创下当前遥感视觉问答数据集最高记录,单个图像平均包含7,000万像素级细节。其次,数据标注深度突破传统边界,不仅包含常规目标检测框,还创新性地融合了动态状态判断、异常检测解释等高级语义标签。第三,采用混合数据分布策略,将人工精标数据与半自动生成数据按影响力加权融合,既保证数据质量又提升规模效益。特别值得注意的是,数据集中关键目标平均仅占图像0.14%像素面积,精确反映了遥感影像低语义密度的本质特征。
使用方法
该数据集专为训练面向超高分辨率遥感的多模态大模型设计。使用时应采用两阶段策略:首先通过背景令牌剪枝技术,基于语义相似度对图像背景区域进行自适应聚类压缩;随后执行锚定令牌选择,利用视觉编码器的[CLS]注意力机制保留关键目标令牌。建议将8K图像压缩至24个代表性令牌,在8GPU节点采用ZeRO-2并行策略,视觉组件与投影层分别设置1e-6和5e-6差异化学习率。对于下游任务微调,推荐采用LESS框架进行数据影响力分析,优先选择对验证集性能影响最大的样本子集。数据集支持端到端训练和基于提示的少样本迁移两种典型应用模式。
背景与挑战
背景概述
SuperRS-VQA和HighRS-VQA数据集由多所中国顶尖高校和研究机构联合开发,旨在解决超高分辨率(UHR)遥感影像在视觉语言模型训练中的数据稀缺问题。该数据集创建于2025年,包含平均分辨率分别为8,376×8,376和2,000×1,912的遥感图像,覆盖22种现实对话任务。作为目前分辨率最高的遥感视觉问答数据集,其创新性地突破了传统遥感数据集的规模限制,为地理空间智能领域提供了重要的基准资源。
当前挑战
该数据集面临的核心挑战体现在两个方面:首先在领域问题层面,需解决超高分辨率影像带来的语义稀疏性问题,即关键目标信息仅占整幅图像的极小比例(平均0.14%-1.02%),而大量背景区域(如海洋、森林)构成信息冗余;其次在构建过程中,人工标注8K级影像面临内存溢出和低质量输出的技术瓶颈,为此研究团队开发了半自动化标注流程,结合GPT-4o生成与人工校验的混合方法,并通过基于梯度的数据选择算法(LESS框架)优化样本质量,最终在40天密集标注中完成12,228组超高分辨率样本的构建。
常用场景
经典使用场景
SuperRS-VQA和HighRS-VQA数据集作为迄今为止分辨率最高的遥感视觉问答数据集,主要应用于超高清遥感影像的多模态大语言模型训练。这些数据集覆盖了22种现实对话任务,包括物体计数、场景分类、空间关系理解等经典场景,为模型提供了丰富的视觉和语言对齐样本。在GeoLLaVA-8K等模型的训练中,这些数据通过8K级分辨率影像的细粒度标注,显著提升了模型对地物细节的感知能力。
实际应用
在实际应用中,该数据集支撑的模型可服务于精准农业监测、城市发展规划、灾害应急响应等关键领域。例如,在路网规划任务中,模型能准确分析8K影像中的道路拓扑关系;在异常检测方面,可识别河流淤塞或山体滑坡等细微变化。数据集包含的12万条高质量标注样本,显著提升了实际业务场景中的自动化分析精度。
衍生相关工作
基于该数据集衍生的GeoLLaVA-8K模型在XLRS-Bench上创造了50.2%的最新性能记录,超越了GPT-4o等通用模型。相关技术启发了后续如LLaVA-UHD等工作的令牌压缩方法,并推动了RSGPT、EarthGPT等遥感专用大模型的发展。数据集构建中提出的半自动标注流程和基于LESS框架的数据选择方法,也成为后续多模态数据构建的参考标准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录