five

RSVQAxBEN-MM|遥感图像数据集|视觉问答数据集

收藏
arXiv2025-01-14 更新2025-01-16 收录
遥感图像
视觉问答
下载链接:
http://arxiv.org/abs/2501.08131v1
下载链接
链接失效反馈
资源简介:
RSVQAxBEN-MM是一个多模态遥感视觉问答数据集,由巴黎大学和ONERA联合创建。该数据集旨在结合合成孔径雷达(SAR)和光学图像,以提升遥感图像问答任务的性能。数据集包含了来自Sentinel-1和Sentinel-2卫星的SAR和光学图像,涵盖了多种地表覆盖类型,如水域等。数据集的创建过程包括从卫星图像中提取信息,并将其与自然语言问题相结合。该数据集的应用领域包括环境监测、生物多样性评估和人口统计研究,旨在通过多模态融合技术提高遥感图像信息的自动化提取和解释能力。
提供机构:
巴黎大学, ONERA
创建时间:
2025-01-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
RSVQAxBEN-MM数据集的构建基于BigEarthNet(BEN)和BigEarthNet-Multi Modality(BEN-MM)数据集,并结合了RSVQAxBEN的问答对。BEN数据集包含590,326个Sentinel-2光学图像补丁,每个补丁与2018年CORINE土地覆盖(CLC)地图的类别相匹配。BEN-MM扩展了BEN,为每个Sentinel-2补丁添加了对应的Sentinel-1 SAR图像,包含VV和VH极化通道。RSVQAxBEN则为每个Sentinel-2图像添加了25个基于CLC标签的问答对。RSVQAxBEN-MM在此基础上进一步整合了SAR图像,形成了包含光学和SAR图像的多模态数据集。
特点
RSVQAxBEN-MM数据集的特点在于其多模态性,结合了光学和SAR图像的优势。光学图像提供了高分辨率的视觉信息,而SAR图像则能够在云层和黑暗条件下捕捉地表信息,提供纹理和表面特性的补充信息。数据集包含61个土地覆盖类别,涵盖了从农业区域到水体的广泛类别。此外,数据集的问答对分为“是/否”问题和土地覆盖问题,前者占主导,后者则要求模型识别图像中的具体类别。数据集的类别分布不平衡,某些类别如农业区域和森林占据了较大比例,这为模型的分类任务带来了挑战。
使用方法
RSVQAxBEN-MM数据集的使用方法主要围绕多模态视觉问答(RSVQA)任务展开。研究者可以通过两种主要管道来处理数据:端到端RSVQA和Prompt-RSVQA。在端到端RSVQA中,光学和SAR图像分别通过编码器提取特征,并与问题的文本特征融合,最终通过多层感知器预测答案。Prompt-RSVQA则分为两个阶段:首先通过多标签分类网络从图像中提取语义信息,然后将这些信息与问题一起输入语言模型以生成答案。此外,研究者还可以尝试不同的融合方法(如早期融合、中期融合和晚期融合)来结合光学和SAR图像的特征,以提升模型性能。
背景与挑战
背景概述
RSVQAxBEN-MM数据集是由Lucrezia Tosato等研究人员于2025年提出的,旨在将合成孔径雷达(SAR)图像引入遥感视觉问答(RSVQA)任务中。该数据集结合了光学图像和SAR图像,扩展了传统的RSVQA任务,使其能够处理多模态数据。该研究得到了法国国家研究署(ANR)的支持,并在GENCI-IDRIS的高性能计算资源上进行了实验。RSVQAxBEN-MM的提出填补了SAR图像在RSVQA任务中的空白,为遥感图像的解释提供了新的视角。该数据集不仅推动了遥感领域的技术进步,还为多模态数据融合在环境监测、灾害管理等领域的应用提供了新的可能性。
当前挑战
RSVQAxBEN-MM数据集面临的挑战主要体现在两个方面。首先,SAR图像的复杂性使得其在RSVQA任务中的应用具有较高的技术难度。SAR图像通过雷达信号捕捉地表信息,虽然不受天气条件影响,但其几何变异性和斑点噪声使得图像解释变得复杂。其次,数据集的构建过程中,如何有效融合光学图像和SAR图像的信息是一个关键挑战。尽管SAR图像提供了光学图像无法捕捉的纹理和表面特征,但两种模态的数据在特征空间上存在较大差异,如何设计有效的融合策略以提升模型性能是研究的核心问题。此外,数据集中类别分布的不平衡性也增加了模型训练的难度,尤其是在处理低频类别时,模型的泛化能力受到限制。
常用场景
经典使用场景
RSVQAxBEN-MM数据集在遥感视觉问答(RSVQA)任务中具有广泛的应用,尤其是在结合合成孔径雷达(SAR)和光学图像的多模态数据时。该数据集通过提供Sentinel-1 SAR图像和Sentinel-2光学图像,支持研究人员开发能够从多模态数据中提取信息的模型。经典的使用场景包括通过自然语言问题从遥感图像中自动提取信息,例如回答关于土地覆盖类型、水体分布等问题的答案。
衍生相关工作
RSVQAxBEN-MM数据集的推出催生了一系列相关研究工作,尤其是在多模态数据融合和遥感视觉问答领域。基于该数据集,研究人员提出了多种融合方法,如早期融合、中期融合和晚期融合,以探索SAR和光学图像的最佳结合方式。此外,该数据集还推动了基于深度学习的遥感图像解释技术的发展,特别是在自然语言处理与遥感图像结合的领域。相关研究进一步扩展了遥感视觉问答的应用范围,例如在目标检测、土地分类和灾害监测等任务中的应用。
数据集最近研究
最新研究方向
近年来,RSVQAxBEN-MM数据集在遥感视觉问答(RSVQA)领域的研究方向主要集中在多模态融合与合成孔径雷达(SAR)图像的应用上。随着遥感技术的快速发展,光学图像与SAR图像的结合为遥感数据分析提供了新的视角。SAR图像因其对云层和光照条件的不敏感性,能够提供光学图像无法捕捉的地表纹理和物理特性信息。当前研究通过引入SAR模态,探索了两种不同的RSVQA处理流程:端到端方法和基于提示的方法。研究表明,SAR与光学图像的融合在决策层能够显著提升性能,特别是在涉及特定地物类别(如水域)的问题上。这一进展不仅拓展了RSVQA的应用范围,还为多模态遥感数据分析提供了新的技术路径。
相关研究论文
  • 1
    SAR Strikes Back: A New Hope for RSVQA巴黎大学, ONERA · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。

arXiv 收录