SAR-TEXT

github2025-08-19 更新2025-08-22 收录

下载链接：

https://github.com/YiguoHe/SAR-TEXT

下载链接

链接失效反馈

官方服务：

资源简介：

SAR-TEXT是一个大规模合成孔径雷达(SAR)图像-文本配对数据集，包含SAR图像与文本对话数据，基于SAR-Narrator框架构建，旨在通过视觉语言建模连接SAR图像与语义理解之间的鸿沟

SAR-TEXT is a large-scale synthetic aperture radar (SAR) image-text paired dataset. It contains SAR image-text dialogue data and is constructed based on the SAR-Narrator framework, aiming to bridge the gap between SAR image understanding and semantic comprehension via vision-language modeling.

创建时间：

2025-07-29

原始信息汇总

SAR-TEXT 数据集概述

数据集基本信息

数据集名称：SAR-TEXT
类型：合成孔径雷达（SAR）图像-文本配对数据集
规模：大规模
目标：通过视觉-语言建模桥接合成孔径雷达（SAR）图像与语义理解之间的差距

数据集内容

光学遥感对话数据集：基于RS-VQA数据集，提供光学遥感图像的多轮视觉问答（VQA）对话标注
SAR图像-文本对话数据集：提供SAR图像的多轮视觉问答（VQA）对话标注

数据集文件

光学遥感对话数据集文件：RS-VQA_conv.json
SAR图像-文本对话数据集文件：SAR-VQA_conv.json

数据获取方式

光学遥感对话数据集：通过GitHub仓库直接获取
SAR图像-文本对话数据集：通过百度网盘获取
HRSID测试图像：通过百度网盘获取HRSID_JPG.rar文件

开源时间表

所有资源将在2025年8月30日（北京时间）前完全发布，包括：

预训练模型（SAR-CLIP、SAR-CoCa、SAR-GPT）
完整的SAR-TEXT数据集
额外的文档、使用脚本和演示

技术依赖

CLIP和CoCa模型基于OpenCLIP框架实现
SAR-GPT基于TinyGPT-V代码库实现
需要分别配置相应的运行环境

评估指标

图像-文本检索任务使用以下标准评估指标：

图像到文本检索的R@1、R@5、R@10
文本到图像检索的R@1、R@5、R@10
平均召回率

搜集汇总

数据集介绍

构建方式

在合成孔径雷达图像语义理解领域，SAR-TEXT数据集通过创新的SAR-Narrator框架实现自动化构建。该框架采用渐进式迁移学习策略，首先利用光学遥感图像的多轮视觉问答对话数据作为基础，随后通过跨模态对齐技术将语义知识迁移至SAR图像模态。构建过程融合了视觉语言基础模型的预测能力，确保图像-文本对在语义层面保持高度一致性，最终形成大规模高质量的SAR图像-文本对话数据集。

特点

SAR-TEXT数据集作为首个大规模SAR图像-文本多模态数据集，具备显著的领域特性。数据集包含丰富的SAR图像与自然语言描述配对，覆盖船舶检测、桥梁识别、地形分类等多个遥感应用场景。其独特价值在于突破传统SAR图像解释的技术壁垒，通过视觉语言模型实现端到端的语义理解。数据集采用多轮对话标注格式，支持视觉问答、图像描述生成等复杂任务，为SAR图像的智能解译提供全面的语义支撑。

使用方法

研究者可通过加载预训练的视觉语言基础模型（SAR-CLIP、SAR-CoCa、SAR-GPT）使用该数据集。SAR-CLIP专攻图像-文本检索任务，支持跨模态相似度计算；SAR-CoCa实现自动化图像描述生成，输出结构化 caption 结果；SAR-GPT则专注于多轮对话生成。使用前需分别配置OpenCLIP和TinyGPT-V环境，通过指定图像路径和相应参数脚本即可执行检索、标注或对话任务。数据集采用标准CSV格式存储，确保与主流深度学习框架的兼容性。

背景与挑战

背景概述

合成孔径雷达（SAR）技术在遥感领域具有独特优势，能够穿透云层和恶劣天气进行全天候观测，然而其图像解译一直面临语义理解的技术瓶颈。SAR-TEXT数据集由研究团队于2025年前构建完成，旨在通过大规模SAR图像-文本配对数据，推动视觉-语言模型在SAR影像理解中的应用。该数据集通过SAR-Narrator自动标注框架与渐进式迁移学习技术，有效连接了SAR影像的低层特征与高层语义信息，为遥感智能解译提供了重要的数据基础。

当前挑战

SAR图像解译的核心挑战在于其独特的成像机制导致的 speckle 噪声和几何畸变，使得传统自然图像理解模型难以直接迁移应用。数据集构建过程中面临标注成本高昂的难题，研究团队通过开发SAR-Narrator自动标注系统，结合光学遥感数据的知识迁移，有效解决了SAR图像文本描述的生成问题。此外，多模态模型训练需要协调视觉编码器与语言模型的表征对齐，这对跨模态语义理解提出了更高要求。

常用场景

经典使用场景

在遥感图像分析领域，SAR-TEXT数据集通过大规模合成孔径雷达图像与文本描述配对，为多模态学习提供了重要支撑。该数据集典型应用于视觉-语言联合建模，支持图像检索、自动标注和视觉问答等任务，显著提升了SAR图像语义理解的准确性和效率。研究人员利用其丰富的标注信息，能够训练出高性能的跨模态基础模型，推动遥感图像解译的技术进步。

衍生相关工作

基于SAR-TEXT数据集，研究社区衍生出多项重要工作，包括SAR-CLIP跨模态检索模型、SAR-CoCa图像描述生成系统和SAR-GPT视觉对话模型。这些成果推动了遥感领域多模态学习的发展，为后续研究提供了技术基础和性能标杆。相关模型在图像检索、自动标注和视觉问答等任务中表现出色，促进了SAR图像解译技术的整体进步。

数据集最近研究