five

LLaRS1M

收藏
github2026-04-08 更新2026-04-17 收录
下载链接:
https://github.com/yc-cui/LLaRS
下载链接
链接失效反馈
官方服务:
资源简介:
LLaRS1M是一个多模态遥感图像恢复和融合的数据集,包含云、超分辨率、全色锐化、时空融合和噪声等多个子数据集。

LLaRS1M is a multimodal remote sensing image restoration and fusion dataset that contains multiple sub-datasets such as cloud removal, super-resolution, pansharpening, spatial-temporal fusion, and denoising.
创建时间:
2026-04-07
原始信息汇总

LLaRS1M 数据集概述

数据集基本信息

  • 数据集名称: LLaRS1M
  • 数据集用途: 用于多模态遥感图像修复与融合的统一基础模型训练与评估
  • 核心特点: 支持语言提示,涵盖多种遥感图像处理任务

数据集组成与结构

LLaRS1M数据集由多个公开遥感数据集组合而成,按任务类型组织在data/目录下。

主要任务类别与数据

  • 云去除/去雾 (cloud/)

    • 来源: C-CUHK, RICE_DATASET, Haze1k, SEN12MSCR
    • 数据格式: PNG, TIFF
    • 内容: 含云/雾图像与对应清晰标签图像对
  • 超分辨率 (sr/)

    • 来源: OLI2MSI, sen2venus
    • 数据格式: TIF, PT
    • 内容: 低分辨率与高分辨率图像对
  • 全色锐化 (pansharpening/)

    • 来源: NBU_PansharpRSData, PanCollection
    • 数据格式: MAT, H5
    • 内容: 多光谱图像与全色图像对
  • 时空融合 (stf/)

    • 来源: CIA, LGC
    • 数据格式: TIFF
    • 内容: Landsat与MODIS时间序列数据
  • 去噪 (noise/)

    • 来源: SAR-despeckle-Dataset, SAR despeckling filters dataset
    • 数据格式: MAT, TIFF
    • 内容: 含噪SAR图像与干净参考图像对

数据组织方式

数据集采用元数据与样本列表分离的组织方式:

  • 元数据文件 (*_dataset_meta.json)

    • 包含数据集名称、描述、输入规格、样本数量等信息
    • 定义每个输入的宽度、高度、数据类型、通道数、归一化参数等
  • 样本列表文件 (*_dataset.json)

    • 包含训练集、验证集、测试集的样本路径列表
    • 必需包含traintest键,可选valid
  • 模拟配置文件 (sim/*.json)

    • 用于构建模拟数据集的配置
    • 指定从哪些真实数据集中提取干净样本进行退化模拟

数据获取与使用

  • 获取方式: 需要手动下载所有组成LLaRS1M的原始数据集
  • 数据根目录: 由DATA_ROOT常量指定(位于./constants.py
  • 模拟数据: 通过utils/sim_ops/__init__.py中的SIM_OP_GROUPS在内存中生成,不新增文件夹

数据集配置与注册

  • 配置文件: constants.py中的DATASET_CONFIGS定义数据集配置
  • 注册机制: registries/dataset_registry.py管理数据集注册
  • 提示词: 位于data_utils/prompts/all_prompts.json,训练时采样提示词,验证/测试时使用每个任务键的第一个字符串

相关文件

  • 数据集元数据与列表文件位于:data_utils/dataset_files/
  • 提示词加载器:utils/prompt_loader.py
  • 数据集基础类:data_utils/dataset_base.py
  • 数据集工具:utils/dataset_utils.py
  • 模拟操作:utils/sim_ops/__init__.py

注意事项

  • 数据集正在整理固定子集以简化获取并支持更丰富的实验
  • 完整数据、代码和模型权重将在期刊版本中发布
  • 模拟运行不添加新文件夹,直接从真实路径读取干净样本并在内存中退化
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感图像处理领域,构建一个全面且高质量的数据集对于推动多模态图像修复与融合研究至关重要。LLaRS1M数据集的构建采用了系统化的整合策略,它并非从头采集原始数据,而是精心汇集了多个公开可用的遥感图像数据集,涵盖云去除、超分辨率、全色锐化、时空融合及噪声抑制等关键任务。数据集的组织结构经过严谨设计,通过统一的元数据配置文件(如`*_dataset_meta.json`)和样本列表文件(如`*_dataset.json`)来管理不同子集,确保了数据来源的清晰可溯与格式的一致性。对于模拟任务,数据集还提供了灵活的配置机制,允许从真实干净图像中动态生成退化样本,从而极大地扩展了数据在算法训练与验证中的适用性。
特点
该数据集的核心特点在于其前所未有的多任务统一性与规模。它突破了传统遥感数据集的单一任务局限,首次将云去除、图像超分辨率、全色锐化、时空融合和SAR图像去噪等多种核心修复与融合任务整合于一个统一的框架之下。数据集规模达到百万级别,提供了海量的多模态遥感图像对,包括光学、SAR以及不同空间与时间分辨率的影像。其另一显著特色是引入了语言提示机制,为每项任务配备了结构化的文本描述,使得模型能够理解并响应高层次的任务指令,为实现通用化的遥感图像处理基础模型奠定了坚实的数据基础。
使用方法
为了高效利用这一数据集进行研究与开发,项目提供了模块化且配置驱动的使用流程。用户首先需要根据`constants.py`中的指引手动下载并组织原始数据文件。模型训练通过执行`train.py`脚本并传入一个JSON格式的配置文件来启动,该配置文件允许用户灵活指定所使用的模型架构、训练与测试的数据集组合、训练器参数以及可选的高级功能如路由算法或参数高效微调。数据集通过注册机制进行管理,在配置中通过`DATASET_CONFIGS`里定义的键名进行引用,并支持对每个数据集设置样本数量上限和随机种子。训练过程会自动加载对应的元数据与样本列表,并整合语言提示,最终在指定的日志目录中保存检查点与评估结果。
背景与挑战
背景概述
LLaRS1M数据集诞生于2026年,由Yongchuan Cui和Peng Liu等研究人员构建,旨在为遥感图像处理领域提供一个统一的多模态基础模型框架。该数据集整合了去云、超分辨率、全色锐化、时空融合及去噪等多种遥感图像修复与融合任务,通过引入语言提示机制,实现了对复杂退化场景的智能化处理。其核心研究问题在于克服传统单一任务模型的局限性,推动遥感图像分析向通用化、自适应方向发展,对提升地球观测数据的可用性与自动化处理水平具有深远影响。
当前挑战
LLaRS1M数据集所解决的领域挑战在于遥感图像多任务联合修复与融合的复杂性,例如如何统一处理不同传感器、分辨率及退化类型的异构数据,并实现跨任务的知识迁移。在构建过程中,面临数据集成与标准化的艰巨挑战,需协调来自C-CUHK、SEN12MSCR、NBU_PansharpRSData等多个独立数据源的格式差异与标注不一致性,同时确保模拟退化过程与真实物理模型的一致性,以维持数据集的科学严谨性与实用价值。
常用场景
经典使用场景
在遥感图像处理领域,LLaRS1M数据集为多模态图像修复与融合任务提供了统一的基准平台。其经典使用场景集中于训练和评估能够处理云层去除、超分辨率重建、全色锐化以及时空融合等多样化任务的通用基础模型。通过整合来自不同传感器和地理区域的异构数据,该数据集支持模型在单一框架内学习跨模态的表示能力,从而实现对复杂退化现象的联合建模与恢复。
衍生相关工作
围绕LLaRS1M数据集,已衍生出一系列重要的研究工作。基于其构建的统一基础模型LLaRS,研究者们进一步探索了参数高效微调策略,如LoRA与适配器技术,以降低多任务学习的计算成本。同时,该数据集启发了对路由机制(如Sinkhorn算法)在模态选择与特征分配中的应用研究,提升了模型的任务适应性。此外,针对仿真退化与真实数据协同训练的范式,也在去噪、去云等子任务上催生了新的算法改进,形成了以多模态提示学习为核心的遥感修复方法体系。
数据集最近研究
最新研究方向
在遥感图像处理领域,LLaRS1M数据集正推动着多模态统一基础模型的前沿探索。该数据集整合了去云、超分辨率、全色锐化、时空融合及去噪等多种修复与融合任务,其核心创新在于引入语言提示机制,使得单一模型能够通过自然语言指令灵活适应不同处理需求。这一方向紧密关联当前人工智能在遥感分析中追求通用性与可解释性的热点趋势,显著提升了模型在复杂环境下的适应能力与任务泛化性能。其影响深远,为构建高效、智能的一体化遥感图像处理系统奠定了坚实的数据基础,有望加速遥感技术在灾害监测、环境评估等关键领域的实际应用进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作