SARVLM-1M
收藏github2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/KlayMa527/SARVLM
下载链接
链接失效反馈官方服务:
资源简介:
SARVLM-1M是一个大规模SAR图像-文本数据集,设计用于多模态预训练、检索、语义理解和字幕生成研究。它由多个SAR和遥感资源构建而成,包含多样化的图像-文本对,涵盖目标、船只、地面物体、场景和来自不同SAR来源的语义描述。
SARVLM-1M is a large-scale SAR image-text dataset designed for research on multimodal pre-training, retrieval, semantic understanding, and caption generation. It is constructed from multiple SAR and remote sensing resources, and includes diverse image-text pairs covering targets, ships, ground objects, scenes, and semantic descriptions from different SAR sources.
创建时间:
2026-03-25
原始信息汇总
SARVLM 数据集详情总结
数据集概述
SARVLM 是一个面向合成孔径雷达(SAR)的视觉语言建模项目。该项目包含一个大规模图像-文本数据集、一个连接自然图像、光学遥感与SAR图像的迁移策略,以及两个模型组件:用于表示学习的 SARCLIP 和用于描述生成的 SARCoCa。该框架支持SAR场景下的检索、识别、零样本分类、语义定位和描述生成任务。
核心数据集:SARVLM-1M
- 名称: SARVLM-1M
- 性质: 大规模SAR视觉语言数据集
- 规模: 超过一百万图像-文本对
- 用途: 用于多模态预训练、检索、语义理解和描述生成研究。
- 构成: 数据集从多个SAR和遥感资源构建而成,包含多样化的图像-文本对,涵盖来自不同SAR源的目标、船只、地物、场景和语义描述。
数据集与模型资源获取
| 资源 | 描述 | 下载链接 | 提取码 |
|---|---|---|---|
| SARVLM Dataset | SARVLM 数据发布 | https://pan.baidu.com/s/1RfQBMxgFquesDeDDNkYuRw | p66p |
| SARCLIP Checkpoints | 检索/识别模型权重 | https://pan.baidu.com/s/1_tF_1COKFw_l02HCzBD2YA | iutk |
| SARCoCa Checkpoints | 描述生成模型权重 | https://pan.baidu.com/s/1mOYK8ningxxd3d0b_Y5i3g | ungv |
支持的任务与评估
项目提供了用于结果复现的核心评估代码,涵盖以下任务:
1. 图像-文本检索
- 主脚本:
eval/RET/eval_retrieval.py - 主要指标:
R@1,R@5,R@10,MeanRecall
2. 零样本分类
- 主脚本:
eval/zeroshot/eval_zeroshot.py - 主要指标:
Top-1,Top-3,Top-5,Mean Per-class Accuracy
3. 描述生成
- 主脚本:
eval/Caption/evaluate_coca_simple.py - 主要指标:
BLEU,METEOR,ROUGE-L,CIDEr,SPICE
4. 语义定位
- 主脚本:
eval/SeLo/SeLo_test_and_save.py
相关数据集引用
项目在构建、扩展或基准测试中使用了以下数据集或数据资源:
MSTARSARSimOpenSARShipSAMPLEATRNetSARDet-100kFAIR-CSARSARLANG-1M-Caption
论文与引用
- 论文标题: SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery
- arXiv链接: https://arxiv.org/abs/2510.22665
- 引用格式: bibtex @article{ma2025sarvlm, title={SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery}, author={Ma, Qiwei and Wang, Zhiyu and Liu, Wang and Lu, Xukun and Deng, Bin and Duan, Puhong and Kang, Xudong and Li, Shutao}, journal={arXiv preprint arXiv:2510.22665}, year={2025} }
搜集汇总
数据集介绍

构建方式
在合成孔径雷达(SAR)视觉语言建模领域,SARVLM-1M数据集的构建体现了多源数据融合的先进理念。该数据集整合了来自MSTAR、OpenSARShip、SARSim以及SARDet-100k等多个权威SAR与遥感数据资源,通过精心筛选与配对,形成了超过一百万对高质量的图像-文本样本。其构建过程不仅涵盖了舰船、地面目标、场景等多种SAR典型要素,还纳入了丰富的语义描述文本,旨在为跨模态预训练提供全面而坚实的底层数据支撑。
特点
SARVLM-1M数据集的核心特点在于其规模宏大与内容多样性的有机结合。作为目前公开的大规模SAR视觉语言数据集之一,它突破了传统SAR数据集在模态与任务上的局限,专门服务于图像检索、零样本分类、语义定位与描述生成等多重下游任务。数据集中的图像-文本对覆盖了不同分辨率、成像条件和地理环境的SAR数据,并配有精准的语义标注,从而为模型学习SAR影像的深层语义表征提供了丰富且具有挑战性的学习素材。
使用方法
该数据集的使用紧密围绕SARVLM框架所支持的多项评估任务展开。研究者可通过项目提供的标准化评估脚本,便捷地进行图像-文本检索、零样本分类、描述生成及语义定位等实验。具体而言,用户需按照安装指南配置Python环境,下载公开的数据集与预训练模型权重,随后运行相应的评估命令。例如,利用`eval_retrieval.py`脚本可计算检索任务的召回率指标,而`evaluate_coca_simple.py`则用于生成描述并评估其与参考文本的相似度,整套流程设计清晰,确保了实验的可复现性与结果的可比性。
背景与挑战
背景概述
合成孔径雷达(SAR)作为一种主动式微波遥感技术,具备全天时、全天候的观测能力,在军事侦察、灾害监测、资源勘查等领域具有不可替代的价值。然而,SAR图像的解译高度依赖专业经验,其独特的成像机理导致图像与自然光学图像存在显著差异,为自动化语义理解带来了巨大障碍。在此背景下,SARVLM-1M数据集应运而生,由研究团队于2025年构建并公开,旨在为SAR视觉-语言建模提供大规模、高质量的图像-文本对资源。该数据集整合了MSTAR、OpenSARShip、SARDet-100K等多个权威SAR数据源,包含超过一百万对样本,核心研究问题聚焦于突破SAR图像与自然语言之间的语义鸿沟,为SAR目标识别、零样本分类、图像描述生成等下游任务奠定数据基础,显著推动了SAR多模态感知领域的发展。
当前挑战
SARVLM-1M数据集致力于解决SAR视觉-语言理解这一核心领域问题,其首要挑战在于SAR图像本身固有的 speckle 噪声、几何畸变以及缺乏色彩与纹理信息,使得模型难以像处理自然图像一样提取鲁棒且高层级的语义特征。构建过程中的挑战则更为具体:一是数据稀缺性与异质性,SAR公开数据规模有限且标注标准不一,需要从多源异构数据中进行高质量清洗、对齐与融合;二是文本描述的生成与对齐,为SAR图像生成准确、多样且具有语义信息的自然语言描述,需要克服专业领域知识壁垒,并确保图文对在语义层面精确匹配;三是领域迁移的复杂性,为弥合自然图像、光学遥感与SAR图像之间的巨大域差异,需要设计有效的多阶段迁移学习策略,这对数据集的构建逻辑与模型预训练路径提出了极高要求。
常用场景
经典使用场景
在合成孔径雷达(SAR)视觉语言建模领域,SARVLM-1M数据集作为大规模多模态预训练的核心资源,其经典使用场景集中于图像-文本检索与语义对齐任务。该数据集通过百万级别的SAR图像与对应文本描述配对,为模型提供了丰富的跨模态学习样本,使得研究者能够训练出能够精准理解SAR图像语义内容的视觉语言模型。此类模型在检索任务中,能够依据文本查询快速定位相关SAR图像,或基于图像生成准确的描述文本,显著提升了SAR数据智能解译的效率和精度。
解决学术问题
SARVLM-1M数据集有效解决了SAR影像领域长期存在的语义理解与跨模态对齐难题。传统SAR图像解译高度依赖专家知识,且缺乏大规模标注数据,限制了深度学习模型的泛化能力。该数据集通过构建海量图像-文本对,为模型提供了自监督学习的坚实基础,使得模型能够学习到SAR影像中目标、场景与自然语言描述之间的深层关联。这不仅推动了零样本分类、语义定位等前沿研究,还为SAR与光学遥感、自然图像之间的域适应问题提供了可行的迁移学习路径,促进了多源遥感数据的融合分析。
衍生相关工作
围绕SARVLM-1M数据集,已衍生出一系列具有影响力的经典研究工作。其中,SARCLIP模型专注于SAR图像的表示学习与跨模态检索,在零样本分类任务上展现了卓越性能;SARCoCa模型则致力于SAR图像描述生成,为自动化影像报告提供了技术基础。此外,该数据集亦促进了如RemoteCLIP、GeoRSCLIP等光学遥感视觉语言模型的跨域适配研究,以及SAR-TEXT、SARCLIP-isprs等针对特定SAR任务的模型优化。这些工作共同构成了SAR多模态理解的技术生态,持续推动着该领域的算法创新与基准提升。
以上内容由遇见数据集搜集并总结生成



