five

SARChat-2M|合成孔径雷达图像处理数据集|视觉语言模型数据集

收藏
arXiv2025-02-14 更新2025-02-14 收录
合成孔径雷达图像处理
视觉语言模型
下载链接:
https://github.com/JimmyMa99/SARChat
下载链接
链接失效反馈
资源简介:
SARChat-2M是由复旦大学信息科学与技术学院构建的大型合成孔径雷达(SAR)图像多模态对话数据集,包含约200万高质量图像-文本对,覆盖海洋、陆地和城市等多种场景。该数据集支持图像分类、视觉问答、视觉定位和目标检测等视觉语言任务,并针对SAR图像特点定义了六项核心任务,包括分类、细粒度描述、实例计数、空间定位、跨模态识别和指代。数据集旨在提升视觉语言模型在SAR领域图像解释能力。
提供机构:
复旦大学信息科学与技术学院
创建时间:
2025-02-12
AI搜集汇总
数据集介绍
main_image_url
构建方式
SARChat-2M数据集的构建始于对SARDet-100K数据集的整合,该数据集由十个现有的SAR检测基准数据集组成,并加入了跨模态适应和增强的语言注释。数据集通过跨模态表示学习建立图像-文本对应关系,涵盖了六个语义类别(船舶、坦克、桥梁、港口、飞机和汽车),并产生了大约200万个精心标注的注释。SARChat-2M数据集包含约200万个高质量的SAR图像-文本对,覆盖了海洋、陆地和城市场景,并具有细粒度的语义描述和多尺度分辨率(0.3-10米)。通过跨模态表示学习,该数据集支持多任务学习能力,包括图像描述、VQA(视觉问答)、视觉定位和目标检测。
使用方法
SARChat-2M数据集的使用方法包括六个核心任务:分类、描述、计数、定位、识别和引用。对于每个任务,数据集都设计了相应的模板和实现逻辑,例如分类任务使用20个不同的问答模板对来评估模型的基本视觉理解能力。此外,数据集还提供了多任务监督预训练、跨领域适应和标准化指标的综合性能评估框架,有助于模型在SAR图像分析任务中的训练和评估。
背景与挑战
背景概述
合成孔径雷达(SAR)遥感图像解译领域近年来取得了显著进展,尤其是在视觉语言模型(VLMs)在自然语言处理和图像理解方面的应用。然而,由于缺乏专业领域的知识,VLMs在专业领域的应用仍然有限。为了解决这个问题,Zhiming Ma等人于2025年提出了SARChat-2M,这是一个包含大约200万高质量图像-文本对的SAR图像大型多模态对话数据集。这个数据集不仅支持视觉理解、目标检测等关键任务,还通过视觉语言数据集和基准的开发,为构建各种遥感垂直领域的多模态数据集提供了范例框架。实验结果表明,SARChat-2M数据集能够有效地验证16种主流VLMs的性能,为SAR图像解译领域的发展提供了重要的推动力。
当前挑战
SARChat-2M数据集面临的挑战主要包括:1)SAR图像固有的解释挑战,如目标边缘模糊、散斑分散和方向敏感性等;2)现有的SAR数据集主要关注视觉识别任务,缺乏大规模、高质量的图像-文本对齐数据集;3)VLMs在SAR领域的应用仍然有限,需要更多的研究和探索。为了解决这些挑战,SARChat-2M数据集采用了多模态对话数据生成方案,并通过交叉模态表示学习实现了多任务学习能力。此外,SARChat-Bench基准框架的建立也为VLMs在SAR领域的应用提供了评估标准和参考。
常用场景
经典使用场景
SARChat-2M 数据集在合成孔径雷达(SAR)图像解释领域具有广泛的应用。该数据集包含约 200 万个高质量的图像-文本对,涵盖了海洋、陆地和城市等多个场景,并具有详细的标注。这使得 SARChat-2M 成为支持多种关键任务的理想数据集,包括视觉理解和目标检测任务。此外,SARChat-2M 还具有独特的创新之处,即它为 SAR 领域开发了视觉-语言数据集和基准,使研究人员能够评估视觉语言模型(VLMs)在 SAR 图像解释方面的能力。因此,SARChat-2M 在 SAR 图像解释领域具有广泛的应用,为构建多模态数据集提供了典范框架。
解决学术问题
SARChat-2M 数据集解决了 SAR 图像解释领域的一个关键问题,即缺乏大型的、高质量的图像-文本对数据集。现有的 SAR 数据集主要集中在视觉识别任务上,而缺乏大规模的、高质量的图像-文本对数据集。这使得视觉语言模型(VLMs)在 SAR 领域的应用受到限制。SARChat-2M 数据集的构建填补了这一空白,为 SAR 领域的 VLMs 应用提供了新的可能性。此外,SARChat-2M 还为构建多模态数据集提供了典范框架,为其他遥感垂直领域的多模态数据集构建提供了参考。
实际应用
SARChat-2M 数据集在实际应用中具有广泛的应用前景。例如,在军事侦察领域,SARChat-2M 可以用于识别和定位目标,并生成详细的描述,从而为军事行动提供支持。在灾害监测领域,SARChat-2M 可以用于识别和评估灾害情况,并提供及时的预警信息。此外,SARChat-2M 还可以用于其他领域,如城市规划、环境保护等。
数据集最近研究
最新研究方向
SARChat-2M数据集的提出,标志着在合成孔径雷达(SAR)图像解读领域,视觉语言模型(VLMs)的应用取得了突破性进展。该数据集涵盖了约200万个高质量的图像-文本对,涉及海洋、陆地和城市等多个场景,并具有详细的标注。SARChat-2M不仅支持视觉理解、目标检测等关键任务,还拥有独特的创新之处:它为SAR领域构建了一个视觉语言数据集和基准,使VLMs能够在SAR图像解读中发挥能力,为构建跨不同遥感垂直领域的多模态数据集提供了范例。通过在16个主流VLMs上的实验,该数据集的有效性得到了充分验证,并在SAR领域成功建立了首个多任务对话基准。该数据集的发布将推动SAR视觉语言模型在深度开发和广泛应用方面的发展。
相关研究论文
  • 1
    SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation复旦大学信息科学与技术学院、中国教育部电磁波信息科学重点实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

Granary

Granary是一个包含25种欧洲语言的大规模语音识别和翻译数据集,由NVIDIA等多家机构联合创建。数据集通过伪标签技术生成,旨在解决低资源语言的语音处理问题。数据集包含约643,237.57小时的语音数据,经过精心筛选和处理,旨在提高数据质量并减少数据中的错误。该数据集可用于自动语音识别(ASR)和自动语音翻译(AST)等领域的研究,有助于提高语音模型在低资源语言上的准确性和鲁棒性。

arXiv 收录

Paper III (Walker et al. 2024)

Data products used in 3-D CMZ Paper III, Walker et al. (2024). The full cloud catalogue is provided in tabular format, along with a full CMZ map showing the clouds and their assigned IDs. For each cloud ID in the published catalogue there are: - Individual cube cutouts from the MOPRA 3mm CMZ survey (HC3N, HCN, and HNCO). - Individual cube cutouts from the APEX 1mm CMZ survey (13CO, C18O, and H2CO). - Cloud-averaged spectra of the ATCA H2CO 4.83 GHz line. - PV slices of the ATCA H2CO 4.83 GHz line, taken across the major axis of the source. - Where applicable, there are mask files which correspond to the different velocity components of the cloud. In these cases, there are two mask files per velocity component, corresponding to the different masking approaches described in the paper.

DataCite Commons 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录