SARVLM-1M

github2026-04-14 更新2026-04-15 收录

下载链接：

https://github.com/KlayMa527/SARVLM

下载链接

链接失效反馈

官方服务：

资源简介：

SARVLM-1M是一个大规模SAR图像-文本数据集，设计用于多模态预训练、检索、语义理解和字幕生成研究。它由多个SAR和遥感资源构建而成，包含多样化的图像-文本对，涵盖目标、船只、地面物体、场景和来自不同SAR来源的语义描述。

SARVLM-1M is a large-scale SAR image-text dataset designed for research on multimodal pre-training, retrieval, semantic understanding, and caption generation. It is constructed from multiple SAR and remote sensing resources, and includes diverse image-text pairs covering targets, ships, ground objects, scenes, and semantic descriptions from different SAR sources.

创建时间：

2026-03-25

原始信息汇总

SARVLM 数据集详情总结

数据集概述

SARVLM 是一个面向合成孔径雷达（SAR）的视觉语言建模项目。该项目包含一个大规模图像-文本数据集、一个连接自然图像、光学遥感与SAR图像的迁移策略，以及两个模型组件：用于表示学习的 SARCLIP 和用于描述生成的 SARCoCa。该框架支持SAR场景下的检索、识别、零样本分类、语义定位和描述生成任务。

核心数据集：SARVLM-1M

名称： SARVLM-1M
性质：大规模SAR视觉语言数据集
规模：超过一百万图像-文本对
用途：用于多模态预训练、检索、语义理解和描述生成研究。
构成：数据集从多个SAR和遥感资源构建而成，包含多样化的图像-文本对，涵盖来自不同SAR源的目标、船只、地物、场景和语义描述。

数据集与模型资源获取

资源	描述	下载链接	提取码
SARVLM Dataset	SARVLM 数据发布	https://pan.baidu.com/s/1RfQBMxgFquesDeDDNkYuRw	p66p
SARCLIP Checkpoints	检索/识别模型权重	https://pan.baidu.com/s/1_tF_1COKFw_l02HCzBD2YA	iutk
SARCoCa Checkpoints	描述生成模型权重	https://pan.baidu.com/s/1mOYK8ningxxd3d0b_Y5i3g	ungv

支持的任务与评估

项目提供了用于结果复现的核心评估代码，涵盖以下任务：

1. 图像-文本检索

主脚本： eval/RET/eval_retrieval.py
主要指标： R@1, R@5, R@10, MeanRecall

2. 零样本分类

主脚本： eval/zeroshot/eval_zeroshot.py
主要指标： Top-1, Top-3, Top-5, Mean Per-class Accuracy

3. 描述生成

主脚本： eval/Caption/evaluate_coca_simple.py
主要指标： BLEU, METEOR, ROUGE-L, CIDEr, SPICE

4. 语义定位

主脚本： eval/SeLo/SeLo_test_and_save.py

论文与引用

论文标题： SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery
arXiv链接： https://arxiv.org/abs/2510.22665
引用格式： bibtex @article{ma2025sarvlm, title={SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery}, author={Ma, Qiwei and Wang, Zhiyu and Liu, Wang and Lu, Xukun and Deng, Bin and Duan, Puhong and Kang, Xudong and Li, Shutao}, journal={arXiv preprint arXiv:2510.22665}, year={2025} }

搜集汇总

数据集介绍

构建方式

在合成孔径雷达（SAR）视觉语言建模领域，SARVLM-1M数据集的构建体现了多源数据融合的先进理念。该数据集整合了来自MSTAR、OpenSARShip、SARSim以及SARDet-100k等多个权威SAR与遥感数据资源，通过精心筛选与配对，形成了超过一百万对高质量的图像-文本样本。其构建过程不仅涵盖了舰船、地面目标、场景等多种SAR典型要素，还纳入了丰富的语义描述文本，旨在为跨模态预训练提供全面而坚实的底层数据支撑。

特点

SARVLM-1M数据集的核心特点在于其规模宏大与内容多样性的有机结合。作为目前公开的大规模SAR视觉语言数据集之一，它突破了传统SAR数据集在模态与任务上的局限，专门服务于图像检索、零样本分类、语义定位与描述生成等多重下游任务。数据集中的图像-文本对覆盖了不同分辨率、成像条件和地理环境的SAR数据，并配有精准的语义标注，从而为模型学习SAR影像的深层语义表征提供了丰富且具有挑战性的学习素材。

使用方法

该数据集的使用紧密围绕SARVLM框架所支持的多项评估任务展开。研究者可通过项目提供的标准化评估脚本，便捷地进行图像-文本检索、零样本分类、描述生成及语义定位等实验。具体而言，用户需按照安装指南配置Python环境，下载公开的数据集与预训练模型权重，随后运行相应的评估命令。例如，利用`eval_retrieval.py`脚本可计算检索任务的召回率指标，而`evaluate_coca_simple.py`则用于生成描述并评估其与参考文本的相似度，整套流程设计清晰，确保了实验的可复现性与结果的可比性。

背景与挑战

背景概述

合成孔径雷达（SAR）作为一种主动式微波遥感技术，具备全天时、全天候的观测能力，在军事侦察、灾害监测、资源勘查等领域具有不可替代的价值。然而，SAR图像的解译高度依赖专业经验，其独特的成像机理导致图像与自然光学图像存在显著差异，为自动化语义理解带来了巨大障碍。在此背景下，SARVLM-1M数据集应运而生，由研究团队于2025年构建并公开，旨在为SAR视觉-语言建模提供大规模、高质量的图像-文本对资源。该数据集整合了MSTAR、OpenSARShip、SARDet-100K等多个权威SAR数据源，包含超过一百万对样本，核心研究问题聚焦于突破SAR图像与自然语言之间的语义鸿沟，为SAR目标识别、零样本分类、图像描述生成等下游任务奠定数据基础，显著推动了SAR多模态感知领域的发展。

当前挑战

SARVLM-1M数据集致力于解决SAR视觉-语言理解这一核心领域问题，其首要挑战在于SAR图像本身固有的 speckle 噪声、几何畸变以及缺乏色彩与纹理信息，使得模型难以像处理自然图像一样提取鲁棒且高层级的语义特征。构建过程中的挑战则更为具体：一是数据稀缺性与异质性，SAR公开数据规模有限且标注标准不一，需要从多源异构数据中进行高质量清洗、对齐与融合；二是文本描述的生成与对齐，为SAR图像生成准确、多样且具有语义信息的自然语言描述，需要克服专业领域知识壁垒，并确保图文对在语义层面精确匹配；三是领域迁移的复杂性，为弥合自然图像、光学遥感与SAR图像之间的巨大域差异，需要设计有效的多阶段迁移学习策略，这对数据集的构建逻辑与模型预训练路径提出了极高要求。

常用场景

经典使用场景

在合成孔径雷达（SAR）视觉语言建模领域，SARVLM-1M数据集作为大规模多模态预训练的核心资源，其经典使用场景集中于图像-文本检索与语义对齐任务。该数据集通过百万级别的SAR图像与对应文本描述配对，为模型提供了丰富的跨模态学习样本，使得研究者能够训练出能够精准理解SAR图像语义内容的视觉语言模型。此类模型在检索任务中，能够依据文本查询快速定位相关SAR图像，或基于图像生成准确的描述文本，显著提升了SAR数据智能解译的效率和精度。

解决学术问题

SARVLM-1M数据集有效解决了SAR影像领域长期存在的语义理解与跨模态对齐难题。传统SAR图像解译高度依赖专家知识，且缺乏大规模标注数据，限制了深度学习模型的泛化能力。该数据集通过构建海量图像-文本对，为模型提供了自监督学习的坚实基础，使得模型能够学习到SAR影像中目标、场景与自然语言描述之间的深层关联。这不仅推动了零样本分类、语义定位等前沿研究，还为SAR与光学遥感、自然图像之间的域适应问题提供了可行的迁移学习路径，促进了多源遥感数据的融合分析。

衍生相关工作

围绕SARVLM-1M数据集，已衍生出一系列具有影响力的经典研究工作。其中，SARCLIP模型专注于SAR图像的表示学习与跨模态检索，在零样本分类任务上展现了卓越性能；SARCoCa模型则致力于SAR图像描述生成，为自动化影像报告提供了技术基础。此外，该数据集亦促进了如RemoteCLIP、GeoRSCLIP等光学遥感视觉语言模型的跨域适配研究，以及SAR-TEXT、SARCLIP-isprs等针对特定SAR任务的模型优化。这些工作共同构成了SAR多模态理解的技术生态，持续推动着该领域的算法创新与基准提升。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集