LRS-VQA
收藏github2025-03-11 更新2025-03-12 收录
下载链接:
https://github.com/VisionXLab/LRS-VQA
下载链接
链接失效反馈官方服务:
资源简介:
LRS-VQA是一个用于大型遥感图像感知的新基准,包含7,333个问答对,涵盖8个类别,图像长度可达27,328像素。数据集包括1,657张图像,长度从1,024到27,328像素不等。
LRS-VQA is a novel benchmark for large-scale remote sensing image perception. It contains 7,333 question-answer pairs across 8 categories, with image lengths up to 27,328 pixels. The dataset consists of 1,657 images with lengths ranging from 1,024 to 27,328 pixels.
创建时间:
2025-03-11
原始信息汇总
LRS-VQA 数据集概述
数据集基本信息
- 名称: LRS-VQA (Large Remote Sensing Visual Question Answering)
- 发布时间: 2025年3月11日
- 数据规模:
- 图像数量: 1,657张
- QA对数量: 7,333对
- 图像分辨率: 长度范围1,024至27,328像素
- 任务类型: 8种不同问题类型
数据集特点
- 高分辨率遥感图像: 图像长度可达27,328像素
- 多源数据: 整合自多个遥感数据集
- FAIR1M (训练集)
- GLH-Bridge (测试集)
- STAR (测试集)
- 评估基准: 专门设计用于评估大型视觉语言模型(LVLMs)对高分辨率遥感图像的感知能力
数据集结构
- 图像来源:
- 训练集: FAIR1M数据集
- 测试集: GLH-Bridge和STAR数据集
- 问题类型: 涵盖8种不同类别
评估方法
- 评估脚本:
- 推理脚本: LLaVA1.5 Inference Script
- 评估脚本: evaluation_LRSVQA.py
- 性能指标: 准确率与输入像素大小的相关性
相关研究
- 核心论文:
- Luo et al. "When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning" (arXiv:2503.07588)
- 相关论文:
- Li et al. "STAR: A First-Ever Dataset and A Large-Scale Benchmark for Scene Graph Generation in Large-Size Satellite Imagery" (IEEE TPAMI 2024)
- Li et al. "Learning to Holistically Detect Bridges From Large-Size VHR Remote Sensing Imagery" (IEEE TPAMI 2024)
获取方式
- 数据集地址: LRS-VQA on Hugging Face
搜集汇总
数据集介绍

构建方式
LRS-VQA数据集的构建,依托于多源卫星图像数据,整合了1,657张不同分辨率的遥感图像,并针对这些图像设计了7,333个问题与答案对。该数据集的构建过程中,特别注重于对大规模遥感图像的解析能力,通过区域关注模块(RFM)与动态图像金字塔(DIP)技术,实现了对关键视觉标记的粗到细的修剪策略,从而在保持精确度的同时提升了处理效率。
特点
LRS-VQA数据集的特点在于其涵盖了从1,024到27,328像素不等的图像长度,以及8个不同类型的问题,这些问题设计旨在全面评估大规模遥感图像的感知能力。数据集不仅包括了多样化的图像分辨率,还通过精心设计的QA对,为大型视觉语言模型提供了丰富的文本引导视觉任务挑战。
使用方法
使用LRS-VQA数据集进行模型训练与评估时,用户需首先从指定的数据源下载原始图像,然后利用提供的脚本进行模型推理和性能评估。数据集提供了详细的评估脚本,可以帮助用户方便地生成模型在LRS-VQA上的表现结果,并通过 leaderboard 进行性能比较。
背景与挑战
背景概述
LRS-VQA数据集于2025年3月11日发布,由Luo Junwei等研究人员创建,旨在评估大型视觉语言模型在处理大型遥感图像时的感知能力。该数据集涵盖了8个类别,包含7,333个问答对,图像长度介于1,024至27,328像素之间。LRS-VQA的构建丰富了遥感领域的任务类型,并反映了大型遥感图像感知的挑战。该数据集的发布为相关领域的研究提供了新的基准,对于推动大型视觉语言模型在遥感图像理解方面的发展具有重要意义。
当前挑战
LRS-VQA数据集在构建过程中面临的挑战主要包括如何有效地处理高分辨率遥感图像,以及如何通过文本指导的视觉标记修剪策略来提高模型的准确性和效率。此外,该数据集在解决大型遥感图像感知问题时,还需克服如何精确定位关键视觉标记和如何在不同的图像分辨率级别上进行有效处理等技术难题。
常用场景
经典使用场景
LRS-VQA数据集作为一项针对大规模遥感图像的视觉问答新基准,其经典使用场景在于评估大型视觉语言模型(LVLMs)对大规模遥感图像(RSIs)的感知能力。该数据集通过细粒度的文本引导视觉令牌修剪策略,以及对关键图像瓦片的聚焦分析,为遥感图像解析提供了高效准确的解决方案。
解决学术问题
该数据集解决了传统视觉问答模型在面对大规模遥感图像时,计算资源消耗巨大和效率低下的问题。通过引入区域聚焦模块(RFM)和基于动态图像金字塔(DIP)的粗到细的文本引导令牌修剪策略,LRS-VQA能够有效地提升LVLMs在处理高分辨率RSI时的准确性和效率,为相关学术研究提供了可靠的数据基础和评估标准。
衍生相关工作
LRS-VQA数据集的发布促进了相关领域的研究进展,衍生出了一系列针对大规模遥感图像处理的研究工作,包括但不限于STAR数据集的构建、大型高分辨率卫星图像中的桥梁整体检测技术等,这些研究共同推动了遥感图像分析和理解技术的边界拓展。
以上内容由遇见数据集搜集并总结生成



