LANDSAT30-AU
收藏arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://github.com/papersubmit1/landsat30-au?tab=readme-ov-file
下载链接
链接失效反馈官方服务:
资源简介:
LANDSAT30-AU数据集是一个大规模的视觉语言数据集,由澳大利亚四颗Landsat卫星(5、7、8和9)收集的30米分辨率图像组成,时间跨度超过36年。该数据集包含两个部分:LANDSAT30-AU-CAP,包含196,262个图像-标题对;LANDSAT30-AU-VQA,包含17,725个人工验证的视觉问答(VQA)样本,涵盖八个遥感领域。数据集通过一个引导式管道构建,该管道利用通用的视觉语言模型(VLM)进行迭代改进和人工验证,以确保质量。
The LANDSAT30-AU dataset is a large-scale vision-language dataset composed of 30-meter resolution imagery collected by four Australian Landsat satellites (5, 7, 8 and 9) over a time span of more than 36 years. It consists of two components: LANDSAT30-AU-CAP, which contains 196,262 image-caption pairs, and LANDSAT30-AU-VQA, which includes 17,725 manually verified visual question answering (VQA) samples covering eight remote sensing domains. The dataset is constructed via a guided pipeline that leverages general-purpose vision-language models (VLMs) for iterative refinement and manual verification to ensure data quality.
提供机构:
澳大利亚国立大学,皇家墨尔本理工大学,澳大利亚科技大学
创建时间:
2025-08-05
搜集汇总
数据集介绍

构建方式
LANDSAT30-AU数据集的构建采用了三阶段半自动化流程,结合多源空间数据与迭代式人工验证。首先从澳大利亚数字地球(DEA)分析就绪数据中提取四颗Landsat卫星(5/7/8/9)1988-2024年的30米分辨率影像,通过地理网格采样获得40万张256×256像素的RGB瓦片。其次整合OpenStreetMap标签与DEA土地覆盖产品作为辅助元数据,并开发基于GPT-4o的区域分类模型和Qwen2.5-VL-7B的标题审核模型。最终通过多阶段生成-验证机制产生19.6万图像-标题对和1.7万人工校验的VQA样本,确保文本描述与低分辨率影像的视觉一致性。
特点
该数据集具有三大核心特征:时空维度上覆盖澳大利亚36年跨度的多卫星观测,包含Landsat不同传感器的辐射特性差异;内容维度上构建分辨率感知的描述体系,所有标题均经过30米可见性验证,避免亚像素级物体幻觉;任务维度上设计8类VQA挑战,涵盖农业物候推理、云遮挡评估等遥感特有任务。与现有数据集相比,其独特价值在于同步满足多卫星(longitudinal)、长时序(temporal)、适中分辨率(resolution-aware)三大要素,为模型提供稳健的跨传感器泛化能力。
使用方法
数据集支持两种典型应用范式:图像描述任务可直接使用LANDSAT30-AU-Cap的19.6万样本进行端到端训练,建议采用SPIDEr和CHAIR指标评估模型对低分辨率特征的描述准确性;视觉问答任务推荐基于LANDSAT30-AU-VQA的八类问题开展多维度评估,特别关注农业物候(APR)和城市规模识别(USR)等遥感专属任务的性能。使用时应屏蔽图像元数据以防止时空信息泄漏,对于微调场景,建议采用QLoRA等参数高效方法,实验表明仅需15%数据即可使Qwen2.5-VL-7B的VQA准确率从0.74提升至0.87。
背景与挑战
背景概述
LANDSAT30-AU是由澳大利亚国立大学和皇家墨尔本理工学院的研究团队于2025年发布的大规模视觉-语言数据集,旨在解决遥感领域长期存在的低分辨率、多卫星、长时序影像分析难题。该数据集基于四代Landsat卫星(5/7/8/9)跨越36年(1988-2024)的30米分辨率澳大利亚影像构建,包含19.6万图像-描述对和1.7万人工验证的视觉问答样本。其创新性体现在通过半自动引导流程整合多源辅助数据,首次为Landsat影像建立了分辨率感知的语言监督基准,推动了低成本、长时序地球观测的民主化进程。
当前挑战
该数据集面临双重挑战:领域层面需解决30米分辨率下地物识别模糊、多卫星传感器辐射差异、长时序地表变化理解等核心难题;构建过程中需克服低分辨率影像标注困难(如空间错位问题)、多源元数据时序对齐、以及自动化标注与人工验证的协同优化。特别地,现有视觉语言模型在云遮挡评估(0.48准确率)和农业物候推理(0.23准确率)等专业任务上表现薄弱,突显了领域适配的艰巨性。
常用场景
经典使用场景
LANDSAT30-AU数据集在遥感视觉语言模型(VLM)研究中扮演了关键角色,尤其在处理低分辨率、多卫星源、长时间序列的Landsat影像时表现出色。该数据集通过提供196,262个图像-描述对和17,725个视觉问答样本,支持模型在农业物候推理、云遮挡评估、土地覆盖分类等任务中的训练与评估。其独特的跨36年时间跨度和四颗Landsat卫星(5/7/8/9)的传感器多样性,为研究长期环境变化和传感器适应性提供了不可替代的数据基础。
解决学术问题
该数据集有效解决了遥感领域三大核心问题:首先,填补了低分辨率(30米)卫星影像缺乏高质量语言标注的空白,突破了传统方法依赖高分辨率数据的局限;其次,通过融合多卫星源数据,解决了模型跨传感器泛化能力不足的难题;最后,其长达36年的时间跨度为研究季节性模式、土地覆盖变化等长期动态过程提供了数据支撑。实验表明,基于该数据集微调的Qwen2.5-VL-7B模型在描述生成任务中SPIDEr指标提升182%,验证了其在提升模型地理空间理解能力方面的学术价值。
衍生相关工作
该数据集已催生多项创新研究:EarthDial团队将其扩展为多传感器对话系统,RS-LLaVA在此基础上开发了遥感专用大型视觉语言模型。在方法学层面,其半自动标注流程被HRS-ALIGN等项目借鉴,开创了结合通用VLM与人类验证的混合标注范式。近期发表的GeoChat等研究直接采用该数据集作为基准,证明了其在推动视觉-语言-地理空间多模态融合研究中的枢纽地位。
以上内容由遇见数据集搜集并总结生成



