five

SARVLM-1M

收藏
github2026-04-14 更新2026-04-15 收录
下载链接:
https://github.com/KlayMa527/SARVLM
下载链接
链接失效反馈
官方服务:
资源简介:
SARVLM-1M是一个大规模SAR图像-文本数据集,设计用于多模态预训练、检索、语义理解和字幕生成研究。它由多个SAR和遥感资源构建而成,包含多样化的图像-文本对,涵盖目标、船只、地面物体、场景和来自不同SAR来源的语义描述。

SARVLM-1M is a large-scale SAR image-text dataset designed for research on multimodal pre-training, retrieval, semantic understanding, and caption generation. It is constructed from multiple SAR and remote sensing resources, and includes diverse image-text pairs covering targets, ships, ground objects, scenes, and semantic descriptions from different SAR sources.
创建时间:
2026-03-25
原始信息汇总

SARVLM 数据集详情总结

数据集概述

SARVLM 是一个面向合成孔径雷达(SAR)的视觉语言建模项目。该项目包含一个大规模图像-文本数据集、一个连接自然图像、光学遥感与SAR图像的迁移策略,以及两个模型组件:用于表示学习的 SARCLIP 和用于描述生成的 SARCoCa。该框架支持SAR场景下的检索、识别、零样本分类、语义定位和描述生成任务。

核心数据集:SARVLM-1M

  • 名称: SARVLM-1M
  • 性质: 大规模SAR视觉语言数据集
  • 规模: 超过一百万图像-文本对
  • 用途: 用于多模态预训练、检索、语义理解和描述生成研究。
  • 构成: 数据集从多个SAR和遥感资源构建而成,包含多样化的图像-文本对,涵盖来自不同SAR源的目标、船只、地物、场景和语义描述。

数据集与模型资源获取

资源 描述 下载链接 提取码
SARVLM Dataset SARVLM 数据发布 https://pan.baidu.com/s/1RfQBMxgFquesDeDDNkYuRw p66p
SARCLIP Checkpoints 检索/识别模型权重 https://pan.baidu.com/s/1_tF_1COKFw_l02HCzBD2YA iutk
SARCoCa Checkpoints 描述生成模型权重 https://pan.baidu.com/s/1mOYK8ningxxd3d0b_Y5i3g ungv

支持的任务与评估

项目提供了用于结果复现的核心评估代码,涵盖以下任务:

1. 图像-文本检索

  • 主脚本eval/RET/eval_retrieval.py
  • 主要指标R@1, R@5, R@10, MeanRecall

2. 零样本分类

  • 主脚本eval/zeroshot/eval_zeroshot.py
  • 主要指标Top-1, Top-3, Top-5, Mean Per-class Accuracy

3. 描述生成

  • 主脚本eval/Caption/evaluate_coca_simple.py
  • 主要指标BLEU, METEOR, ROUGE-L, CIDEr, SPICE

4. 语义定位

  • 主脚本eval/SeLo/SeLo_test_and_save.py

相关数据集引用

项目在构建、扩展或基准测试中使用了以下数据集或数据资源:

  • MSTAR
  • SARSim
  • OpenSARShip
  • SAMPLE
  • ATRNet
  • SARDet-100k
  • FAIR-CSAR
  • SARLANG-1M-Caption

论文与引用

  • 论文标题: SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery
  • arXiv链接: https://arxiv.org/abs/2510.22665
  • 引用格式: bibtex @article{ma2025sarvlm, title={SARVLM: A vision language foundation model for semantic understanding and target recognition in SAR imagery}, author={Ma, Qiwei and Wang, Zhiyu and Liu, Wang and Lu, Xukun and Deng, Bin and Duan, Puhong and Kang, Xudong and Li, Shutao}, journal={arXiv preprint arXiv:2510.22665}, year={2025} }
搜集汇总
数据集介绍
main_image_url
构建方式
在合成孔径雷达(SAR)视觉语言建模领域,SARVLM-1M数据集的构建体现了多源数据融合的先进理念。该数据集整合了来自MSTAR、OpenSARShip、SARSim以及SARDet-100k等多个权威SAR与遥感数据资源,通过精心筛选与配对,形成了超过一百万对高质量的图像-文本样本。其构建过程不仅涵盖了舰船、地面目标、场景等多种SAR典型要素,还纳入了丰富的语义描述文本,旨在为跨模态预训练提供全面而坚实的底层数据支撑。
特点
SARVLM-1M数据集的核心特点在于其规模宏大与内容多样性的有机结合。作为目前公开的大规模SAR视觉语言数据集之一,它突破了传统SAR数据集在模态与任务上的局限,专门服务于图像检索、零样本分类、语义定位与描述生成等多重下游任务。数据集中的图像-文本对覆盖了不同分辨率、成像条件和地理环境的SAR数据,并配有精准的语义标注,从而为模型学习SAR影像的深层语义表征提供了丰富且具有挑战性的学习素材。
使用方法
该数据集的使用紧密围绕SARVLM框架所支持的多项评估任务展开。研究者可通过项目提供的标准化评估脚本,便捷地进行图像-文本检索、零样本分类、描述生成及语义定位等实验。具体而言,用户需按照安装指南配置Python环境,下载公开的数据集与预训练模型权重,随后运行相应的评估命令。例如,利用`eval_retrieval.py`脚本可计算检索任务的召回率指标,而`evaluate_coca_simple.py`则用于生成描述并评估其与参考文本的相似度,整套流程设计清晰,确保了实验的可复现性与结果的可比性。
背景与挑战
背景概述
合成孔径雷达(SAR)作为一种主动式微波遥感技术,具备全天时、全天候的观测能力,在军事侦察、灾害监测、资源勘查等领域具有不可替代的价值。然而,SAR图像的解译高度依赖专业经验,其独特的成像机理导致图像与自然光学图像存在显著差异,为自动化语义理解带来了巨大障碍。在此背景下,SARVLM-1M数据集应运而生,由研究团队于2025年构建并公开,旨在为SAR视觉-语言建模提供大规模、高质量的图像-文本对资源。该数据集整合了MSTAR、OpenSARShip、SARDet-100K等多个权威SAR数据源,包含超过一百万对样本,核心研究问题聚焦于突破SAR图像与自然语言之间的语义鸿沟,为SAR目标识别、零样本分类、图像描述生成等下游任务奠定数据基础,显著推动了SAR多模态感知领域的发展。
当前挑战
SARVLM-1M数据集致力于解决SAR视觉-语言理解这一核心领域问题,其首要挑战在于SAR图像本身固有的 speckle 噪声、几何畸变以及缺乏色彩与纹理信息,使得模型难以像处理自然图像一样提取鲁棒且高层级的语义特征。构建过程中的挑战则更为具体:一是数据稀缺性与异质性,SAR公开数据规模有限且标注标准不一,需要从多源异构数据中进行高质量清洗、对齐与融合;二是文本描述的生成与对齐,为SAR图像生成准确、多样且具有语义信息的自然语言描述,需要克服专业领域知识壁垒,并确保图文对在语义层面精确匹配;三是领域迁移的复杂性,为弥合自然图像、光学遥感与SAR图像之间的巨大域差异,需要设计有效的多阶段迁移学习策略,这对数据集的构建逻辑与模型预训练路径提出了极高要求。
常用场景
经典使用场景
在合成孔径雷达(SAR)视觉语言建模领域,SARVLM-1M数据集作为大规模多模态预训练的核心资源,其经典使用场景集中于图像-文本检索与语义对齐任务。该数据集通过百万级别的SAR图像与对应文本描述配对,为模型提供了丰富的跨模态学习样本,使得研究者能够训练出能够精准理解SAR图像语义内容的视觉语言模型。此类模型在检索任务中,能够依据文本查询快速定位相关SAR图像,或基于图像生成准确的描述文本,显著提升了SAR数据智能解译的效率和精度。
解决学术问题
SARVLM-1M数据集有效解决了SAR影像领域长期存在的语义理解与跨模态对齐难题。传统SAR图像解译高度依赖专家知识,且缺乏大规模标注数据,限制了深度学习模型的泛化能力。该数据集通过构建海量图像-文本对,为模型提供了自监督学习的坚实基础,使得模型能够学习到SAR影像中目标、场景与自然语言描述之间的深层关联。这不仅推动了零样本分类、语义定位等前沿研究,还为SAR与光学遥感、自然图像之间的域适应问题提供了可行的迁移学习路径,促进了多源遥感数据的融合分析。
衍生相关工作
围绕SARVLM-1M数据集,已衍生出一系列具有影响力的经典研究工作。其中,SARCLIP模型专注于SAR图像的表示学习与跨模态检索,在零样本分类任务上展现了卓越性能;SARCoCa模型则致力于SAR图像描述生成,为自动化影像报告提供了技术基础。此外,该数据集亦促进了如RemoteCLIP、GeoRSCLIP等光学遥感视觉语言模型的跨域适配研究,以及SAR-TEXT、SARCLIP-isprs等针对特定SAR任务的模型优化。这些工作共同构成了SAR多模态理解的技术生态,持续推动着该领域的算法创新与基准提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作