five

SARLANG-1M

收藏
arXiv2025-04-04 更新2025-04-08 收录
下载链接:
https://github.com/Jimmyxichen/SARLANG-1M
下载链接
链接失效反馈
官方服务:
资源简介:
SARLANG-1M是一个大规模的基准数据集,专为多模态合成孔径雷达(SAR)图像理解设计,主要集成SAR与文本模态。该数据集包含超过59个城市的世界范围内的约100万对高质量SAR图像-文本对,具有从0.1到25米的多种分辨率,细致的语义描述(包括简洁和详细的字幕),多样的遥感类别(1696个物体类型和16个土地覆盖类别),以及涵盖7个应用和1012个问题类型的多元任务问答对。

SARLANG-1M is a large-scale benchmark dataset tailored for multimodal Synthetic Aperture Radar (SAR) image understanding, which primarily integrates SAR and text modalities. This dataset comprises approximately 1 million high-quality SAR image-text pairs from over 59 cities worldwide, with resolutions ranging from 0.1 to 25 meters, detailed semantic descriptions including both concise and detailed captions, diverse remote sensing categories (1696 object types and 16 land cover categories), as well as multi-task question-answer pairs covering 7 applications and 1012 question types.
提供机构:
东京大学前沿科学研究生院,日本千叶县;理化学研究所先进智能项目中心,日本东京;南京信息工程大学电子与信息工程学院,中国南京;中山大学电子与通信工程学院,中国广州
创建时间:
2025-04-04
原始信息汇总

SARLANG-1M 数据集概述

📌 数据集简介

  • 名称: SARLANG-1M
  • 用途: 面向多模态SAR图像理解的大规模基准数据集,重点整合SAR与文本模态。
  • 规模: 包含超过100万对高质量的SAR图像-文本对,覆盖全球59个以上城市。
  • 特点:
    • 分层分辨率(0.1至25米)
    • 细粒度语义描述(简洁和详细标题)
    • 多样化的遥感类别(1,696种对象类型和16种土地覆盖类别)
    • 多任务问答对(涵盖7个应用和1,012种问题类型)

📊 数据集应用

支持以下7种SAR应用:

应用 描述 文本数量
图像描述 描述SAR图像 45,650
对象识别 确定特定对象的存在 484,620
对象分类 识别SAR图像中的主要类别 132,525
实例计数 量化SAR图像中的实例 117,382
区域参考 确定特定位置的类别 221,450
对象定位 确定类别的近似位置 106,171
其他 预测对象形状、方向、推理等 18,479

📈 统计信息

  • 文本注释统计包括:
    • 7种应用的分布
    • “其他”应用中每种问题类型的数量
    • 30种最常见对象类别的分布

🛠️ 使用指南

安装步骤

  1. 克隆仓库: bash git clone https://github.com/Jimmyxichen/SARLANG-1M.git cd SARLANG-1M

  2. 环境设置:

    • 创建并激活conda环境: bash conda create -n SARLANG1M conda activate SARLANG1M

    • 安装依赖: bash pip install -r requirements.txt

📚 参考与致谢

❓ 问题与支持

搜集汇总
数据集介绍
main_image_url
构建方式
SARLANG-1M数据集的构建采用了两种文本生成策略。首先,通过模态转移方法,利用先进的视觉语言模型(如GPT-4o)为配对的RGB图像生成高质量文本描述,随后将这些描述与对应的SAR图像对齐。其次,直接从现有SAR数据集的标注边界框生成细粒度文本注释,构建了专门用于SAR视觉问答任务的文本语料库。为确保数据质量,所有生成的文本均经过领域专家的人工审核和筛选,剔除不准确或不相关的描述。
特点
SARLANG-1M数据集包含超过100万对高质量的SAR图像-文本对,覆盖全球59个城市的多尺度分辨率(0.1至25米)。其特点包括细粒度的语义描述(简洁和详细标题)、多样化的遥感类别(1,696种对象类型和16种土地覆盖类别)以及多任务问答对(涵盖7种应用和1,012种问题类型)。该数据集通过层次化的标注结构和丰富的语义信息,显著提升了视觉语言模型在SAR图像理解任务中的表现。
使用方法
SARLANG-1M数据集支持两种主要任务:SAR图像描述(SARLANG-1M-Cap)和SAR视觉问答(SARLANG-1M-VQA)。用户可通过微调主流视觉语言模型(如LLaVA、QWEN-VL等)在训练集上优化模型性能,随后在测试集上评估其生成描述或回答问题的能力。数据集还提供预处理后的SAR图像(包括去噪和对比度增强),以进一步提升模型输入质量。实验表明,使用该数据集微调的模型在SAR图像理解任务中达到接近人类专家的水平。
背景与挑战
背景概述
SARLANG-1M是由东京大学前沿科学研究生院和RIKEN先进智能项目中心的研究团队于2025年推出的一个大规模合成孔径雷达(SAR)图像-文本配对数据集。该数据集旨在解决SAR图像理解中视觉-语言模型(VLMs)应用的关键瓶颈问题,包含来自全球59个城市的118,331张SAR图像和超过100万条高质量文本标注,覆盖0.1-25米的多尺度分辨率。作为首个专为SAR图像设计的视觉-语言基准,它通过精细的语义描述(包括简洁和详细说明)和多样化的遥感类别(1,696种对象类型和16种土地覆盖类别),显著推动了SAR图像解释领域的发展。
当前挑战
SARLANG-1M面临的核心挑战体现在两个维度:领域问题方面,SAR图像特有的斑点噪声和几何畸变导致其与光学图像存在显著差异,使得通用VLMs直接应用时性能低下;构建过程方面,专业SAR标注需要领域专家参与,成本高昂且耗时长,同时文本生成面临跨模态对齐难题(如消除光学图像描述中的颜色信息)。具体挑战包括:1)解决SAR与光学图像的模态差异问题;2)开发能准确描述非直观SAR特征的标注方法;3)处理多分辨率SAR数据的尺度变化问题;4)确保跨地域场景的标注一致性。
常用场景
经典使用场景
SARLANG-1M数据集在合成孔径雷达(SAR)图像理解领域具有广泛的应用场景。其经典使用场景包括SAR图像描述生成和视觉问答(VQA)任务。通过提供超过100万对高质量的SAR图像-文本对,数据集支持从全局场景描述到局部对象识别的多层次理解。在图像描述任务中,模型能够生成包含关键对象及其空间关系的详细文本;在VQA任务中,模型可回答关于特定对象存在性、类别、数量及空间位置等复杂问题。该数据集特别适用于需要全天候、全天时环境监测的应用场景,如灾害管理、军事侦察和城市规划等领域。
衍生相关工作
该数据集已催生多项创新性研究:基于模态对齐的跨域知识迁移方法(如BLIP-SAR)、面向SAR的层次化Transformer架构(HCNet-SAR)等。在CVPR2024等会议上,研究者利用其多任务问答对开发了首个SAR专用视觉问答框架RSVQA-SAR。数据集还启发了SAR与LiDAR等多源数据融合的新范式,相关成果发表在IEEE TGRS等顶级期刊。其构建方法被扩展应用于极地监测(PolarSAR-1M)等专项数据集,推动了整个遥感多模态领域的发展。
数据集最近研究
最新研究方向
近年来,SARLANG-1M数据集在遥感图像理解领域引起了广泛关注,特别是在合成孔径雷达(SAR)图像与自然语言处理的交叉研究中。该数据集通过提供超过100万对高质量的SAR图像-文本对,为视觉语言模型(VLMs)在SAR图像理解任务中的性能提升提供了重要支持。前沿研究方向主要集中在多模态学习、跨模态对齐以及细粒度语义理解上。热点事件包括利用SARLANG-1M数据集进行图像描述生成(Image Captioning)和视觉问答(VQA)任务的模型优化,以及探索其在灾害管理、环境监测和军事侦察等实际应用中的潜力。该数据集的发布不仅填补了SAR领域大规模文本标注数据的空白,还为推动SAR图像理解的自动化和智能化提供了重要工具,具有深远的学术和实用价值。
相关研究论文
  • 1
    SARLANG-1M: A Benchmark for Vision-Language Modeling in SAR Image Understanding东京大学前沿科学研究生院,日本千叶县;理化学研究所先进智能项目中心,日本东京;南京信息工程大学电子与信息工程学院,中国南京;中山大学电子与通信工程学院,中国广州 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作