SAR-TEXT
收藏github2025-08-19 更新2025-08-22 收录
下载链接:
https://github.com/YiguoHe/SAR-TEXT
下载链接
链接失效反馈官方服务:
资源简介:
SAR-TEXT是一个大规模合成孔径雷达(SAR)图像-文本配对数据集,包含SAR图像与文本对话数据,基于SAR-Narrator框架构建,旨在通过视觉语言建模连接SAR图像与语义理解之间的鸿沟
SAR-TEXT is a large-scale synthetic aperture radar (SAR) image-text paired dataset. It contains SAR image-text dialogue data and is constructed based on the SAR-Narrator framework, aiming to bridge the gap between SAR image understanding and semantic comprehension via vision-language modeling.
创建时间:
2025-07-29
原始信息汇总
SAR-TEXT 数据集概述
数据集基本信息
- 数据集名称:SAR-TEXT
- 类型:合成孔径雷达(SAR)图像-文本配对数据集
- 规模:大规模
- 目标:通过视觉-语言建模桥接合成孔径雷达(SAR)图像与语义理解之间的差距
数据集内容
- 光学遥感对话数据集:基于RS-VQA数据集,提供光学遥感图像的多轮视觉问答(VQA)对话标注
- SAR图像-文本对话数据集:提供SAR图像的多轮视觉问答(VQA)对话标注
数据集文件
- 光学遥感对话数据集文件:RS-VQA_conv.json
- SAR图像-文本对话数据集文件:SAR-VQA_conv.json
相关模型
- SAR-CLIP:用于检索任务的视觉-语言基础模型
- SAR-CoCa:用于字幕生成任务的视觉-语言基础模型
- SAR-GPT:用于生成任务的视觉-语言基础模型
数据获取方式
- 光学遥感对话数据集:通过GitHub仓库直接获取
- SAR图像-文本对话数据集:通过百度网盘获取
- HRSID测试图像:通过百度网盘获取HRSID_JPG.rar文件
开源时间表
所有资源将在2025年8月30日(北京时间)前完全发布,包括:
- 预训练模型(SAR-CLIP、SAR-CoCa、SAR-GPT)
- 完整的SAR-TEXT数据集
- 额外的文档、使用脚本和演示
技术依赖
- CLIP和CoCa模型基于OpenCLIP框架实现
- SAR-GPT基于TinyGPT-V代码库实现
- 需要分别配置相应的运行环境
评估指标
图像-文本检索任务使用以下标准评估指标:
- 图像到文本检索的R@1、R@5、R@10
- 文本到图像检索的R@1、R@5、R@10
- 平均召回率
搜集汇总
数据集介绍

构建方式
在合成孔径雷达图像语义理解领域,SAR-TEXT数据集通过创新的SAR-Narrator框架实现自动化构建。该框架采用渐进式迁移学习策略,首先利用光学遥感图像的多轮视觉问答对话数据作为基础,随后通过跨模态对齐技术将语义知识迁移至SAR图像模态。构建过程融合了视觉语言基础模型的预测能力,确保图像-文本对在语义层面保持高度一致性,最终形成大规模高质量的SAR图像-文本对话数据集。
特点
SAR-TEXT数据集作为首个大规模SAR图像-文本多模态数据集,具备显著的领域特性。数据集包含丰富的SAR图像与自然语言描述配对,覆盖船舶检测、桥梁识别、地形分类等多个遥感应用场景。其独特价值在于突破传统SAR图像解释的技术壁垒,通过视觉语言模型实现端到端的语义理解。数据集采用多轮对话标注格式,支持视觉问答、图像描述生成等复杂任务,为SAR图像的智能解译提供全面的语义支撑。
使用方法
研究者可通过加载预训练的视觉语言基础模型(SAR-CLIP、SAR-CoCa、SAR-GPT)使用该数据集。SAR-CLIP专攻图像-文本检索任务,支持跨模态相似度计算;SAR-CoCa实现自动化图像描述生成,输出结构化 caption 结果;SAR-GPT则专注于多轮对话生成。使用前需分别配置OpenCLIP和TinyGPT-V环境,通过指定图像路径和相应参数脚本即可执行检索、标注或对话任务。数据集采用标准CSV格式存储,确保与主流深度学习框架的兼容性。
背景与挑战
背景概述
合成孔径雷达(SAR)技术在遥感领域具有独特优势,能够穿透云层和恶劣天气进行全天候观测,然而其图像解译一直面临语义理解的技术瓶颈。SAR-TEXT数据集由研究团队于2025年前构建完成,旨在通过大规模SAR图像-文本配对数据,推动视觉-语言模型在SAR影像理解中的应用。该数据集通过SAR-Narrator自动标注框架与渐进式迁移学习技术,有效连接了SAR影像的低层特征与高层语义信息,为遥感智能解译提供了重要的数据基础。
当前挑战
SAR图像解译的核心挑战在于其独特的成像机制导致的 speckle 噪声和几何畸变,使得传统自然图像理解模型难以直接迁移应用。数据集构建过程中面临标注成本高昂的难题,研究团队通过开发SAR-Narrator自动标注系统,结合光学遥感数据的知识迁移,有效解决了SAR图像文本描述的生成问题。此外,多模态模型训练需要协调视觉编码器与语言模型的表征对齐,这对跨模态语义理解提出了更高要求。
常用场景
经典使用场景
在遥感图像分析领域,SAR-TEXT数据集通过大规模合成孔径雷达图像与文本描述配对,为多模态学习提供了重要支撑。该数据集典型应用于视觉-语言联合建模,支持图像检索、自动标注和视觉问答等任务,显著提升了SAR图像语义理解的准确性和效率。研究人员利用其丰富的标注信息,能够训练出高性能的跨模态基础模型,推动遥感图像解译的技术进步。
衍生相关工作
基于SAR-TEXT数据集,研究社区衍生出多项重要工作,包括SAR-CLIP跨模态检索模型、SAR-CoCa图像描述生成系统和SAR-GPT视觉对话模型。这些成果推动了遥感领域多模态学习的发展,为后续研究提供了技术基础和性能标杆。相关模型在图像检索、自动标注和视觉问答等任务中表现出色,促进了SAR图像解译技术的整体进步。
数据集最近研究
最新研究方向
合成孔径雷达图像理解领域正迎来多模态学习的重大突破,SAR-TEXT数据集通过构建大规模图像-文本对,推动了视觉-语言基础模型在遥感领域的深度应用。当前研究聚焦于跨模态检索、自动描述生成及视觉问答三大方向,其中SAR-CLIP模型实现了高精度图文互检索,SAR-CoCa突破了对复杂地物场景的语义描述瓶颈,而SAR-GPT则开创了基于对话的智能解译新范式。这些进展显著提升了SAR图像在海洋监测、灾害评估等场景的自动化分析能力,为构建下一代遥感智能解译系统奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



