DDFAV

Name: DDFAV
Creator: 辽宁工程技术大学软件学院
Published: 2024-11-05 10:03:12
License: 暂无描述

arXiv2024-11-05 更新2024-11-07 收录

下载链接：

https://github.com/HaodongLi2024/rspope

下载链接

链接失效反馈

官方服务：

资源简介：

DDFAV数据集是由辽宁工程技术大学软件学院创建的高质量遥感大视觉语言模型数据集，包含29个遥感对象类别，涵盖了城市和农村的不同场景以及卫星和无人机的不同视角。数据集通过数据增强和数据混合策略创建，旨在解决现有遥感视觉语言模型在处理复杂空间推理任务时的幻觉问题。DDFAV数据集不仅用于图像描述和视觉问答，还用于复杂推理任务，旨在提高模型在遥感图像处理中的准确性和泛化能力。

The DDFAV dataset is a high-quality remote sensing visual-language model dataset developed by the School of Software, Liaoning Technical University. It contains 29 remote sensing object categories, covering various scenarios in urban and rural areas as well as different perspectives captured by satellites and unmanned aerial vehicles (UAVs). The dataset is constructed via data augmentation and data mixing strategies, aiming to mitigate the hallucination problem faced by existing remote sensing visual-language models when processing complex spatial reasoning tasks. In addition to being applied to image captioning and visual question answering (VQA), the DDFAV dataset also supports complex reasoning tasks, with the objective of improving the accuracy and generalization capability of models in remote sensing image processing.

提供机构：

辽宁工程技术大学软件学院

创建时间：

2024-11-05

原始信息汇总

DDFAV: 遥感大型视觉语言模型数据集与评估基准

数据集概述

数据集名称: DDFAV
数据集类型: 遥感大型视觉语言模型数据集
数据集用途: 用于训练和评估遥感图像的视觉语言模型

数据集内容

指令集: 包含多个指令集，每个指令集生成8个问题，包括图像的详细描述、复杂问题推理、颜色视觉问答任务、计数视觉问答任务和物体位置视觉问答任务。
评估方法: 包含RSPOPE幻觉评估方法，设有9种设置（简单、中等、困难）和（随机、流行、对抗），基于原始POPE设置，不同难度设置要求不同类型的物体数量和二分类问题数量。

数据集来源

遥感数据集: 使用5个遥感数据集，包括DIOR、DOTA、FAIR1M、VisDrone-2019和AI-TOD。

搜集汇总

数据集介绍

构建方式

DDFAV数据集的构建采用了数据增强和数据混合策略，结合了五个目标检测数据集：DIOR、DOTA、FAIR1M、VisDrone-2019和AI-TOD。这些数据集不仅涵盖了丰富的对象类别，如汽车、船只、飞机等，还通过添加VisDrone-2019和AI-TOD数据集，弥补了行人、骑行车辆等信息的缺失，并增强了小目标检测的多样性。最终，DDFAV数据集包含了29个遥感对象类别，覆盖了城市和农村的不同场景以及卫星和无人机的不同视角。

使用方法

DDFAV数据集的使用方法包括数据集的下载和预处理，以及基于该数据集的模型训练和评估。用户可以通过GitHub链接获取数据集和相关文件，进行数据增强和混合处理，以适应不同的遥感任务需求。在模型训练阶段，用户可以利用DDFAV数据集提供的指令集，进行图像描述、视觉问答和复杂推理等任务的训练。在评估阶段，用户可以采用RSPOPE评估方法，对不同的大型视觉语言模型进行零样本能力的评估，从而选择最适合遥感任务的模型。

背景与挑战

背景概述

随着大规模视觉语言模型（LVLMs）的快速发展，这些模型在多模态任务中表现出色。然而，LVLMs在处理遥感任务时容易产生幻觉，且目前专门针对遥感领域的数据集和评估方法较少，导致其在遥感任务中的表现通常不佳。为解决这些问题，本文介绍了一个高质量的遥感LVLMs数据集DDFAV，该数据集通过数据增强和数据混合策略创建。此外，基于所提出的数据集，生成了一套训练指令集，并开发了一种名为RSPOPE的遥感LVLMs幻觉评估方法，用于评估不同LVLMs的零样本能力。DDFAV数据集的提出填补了遥感领域高质量视觉语言数据集的空白，为提升遥感任务中的模型性能提供了有力支持。

当前挑战

DDFAV数据集在构建过程中面临多项挑战。首先，现有遥感LVLMs数据集在任务单一性、多样性和细节方面存在局限，限制了模型的泛化和多任务处理能力。其次，数据集的标注质量不一致，缺乏复杂的场景推理数据，且图像描述指令集过于简短，导致训练模型在处理多样遥感图像时产生显著偏差或错误。此外，当前的评估方法在图像描述任务中主要关注生成文本与参考文本的整体相似性，而忽略了LVLMs在遥感图像中准确识别特定对象（如小或重叠对象）的能力。因此，DDFAV数据集的构建不仅需要解决数据多样性和质量问题，还需开发新的评估方法以全面评估模型的性能。

常用场景

经典使用场景

DDFAV数据集在遥感领域中的经典应用场景主要体现在其对大规模视觉语言模型（LVLMs）的训练和评估上。通过数据增强和数据混合策略，DDFAV提供了高质量的遥感图像数据，支持模型在图像描述生成、场景分类和复杂推理等任务中的训练。此外，DDFAV还用于开发和验证遥感LVLMs的幻觉评估方法RSPOPE，通过零样本能力评估，确保模型在实际应用中的可靠性和准确性。

解决学术问题

DDFAV数据集解决了当前遥感领域中LVLMs在处理复杂遥感图像时容易产生幻觉的问题。通过提供多类别、多视角和更均匀缩放的遥感图像数据，DDFAV增强了模型的泛化能力和多任务处理能力。此外，DDFAV还推动了遥感LVLMs的评估方法的发展，特别是RSPOPE方法，该方法通过二分类幻觉评估，有效提升了模型在识别特定对象（如小物体或重叠物体）时的准确性。

实际应用

在实际应用中，DDFAV数据集被广泛用于开发和优化遥感图像处理系统。例如，在土地覆盖分类、灾害监测和环境保护等领域，DDFAV支持的LVLMs能够提供更精确的图像描述和场景分析，从而提高决策的科学性和准确性。此外，DDFAV还促进了无人机和卫星遥感数据的自动化处理，减少了人工干预的需求，提高了工作效率。

数据集最近研究