xiang709/VRSBench|遥感图像理解数据集|视觉-语言模型数据集

hugging_face2024-07-10 更新2024-06-15 收录

遥感图像理解

视觉-语言模型

下载链接：

https://hf-mirror.com/datasets/xiang709/VRSBench

下载链接

链接失效反馈

资源简介：

VRSBench是一个用于遥感图像理解的多功能视觉-语言基准数据集。它包含29,614张遥感图像，每张图像都有详细的描述，52,472个对象引用，以及3,123,221个视觉问答对。这些数据支持广泛的遥感图像理解任务的训练和评估。数据集通过多个数据工程步骤构建，包括属性提取、提示工程、GPT-4推理和人工验证。此外，数据集还支持模型训练，展示了LVMs在遥感图像理解中的潜力，并讨论了数据集的社会影响、偏见、已知限制和未来工作。

VRSBench is a Versatile Vision-Language Benchmark for Remote Sensing Image Understanding. It consists of 29,614 remote sensing images with detailed captions, 52,472 object refers, and 3,123,221 visual question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. The dataset is constructed through multiple data engineering steps, including attribute extraction, prompting engineering, GPT-4 inference, and human verification. Additionally, it supports model training, demonstrating the potential of LVMs in remote sensing image understanding, and discusses the datasets social impact, biases, known limitations, and future work.

提供机构：

xiang709

原始信息汇总

VRSBench 数据集概述

数据集基本信息

许可证: Creative Commons Attribution Non Commercial 4.0
任务类别: 视觉问答、文本生成
语言: 英语
名称: VRSBench
大小类别: 10K<n<100K
标签: 遥感、视觉语言模型

数据集内容

图像数量: 29,614 张遥感图像
对象标注: 52,472 个对象标注
视觉问答对: 312,221 对

数据集构建

属性提取: 从现有对象检测数据集中提取图像和对象信息。
提示工程: 设计指令以提示 GPT-4V 生成详细的图像标题、对象引用和问答对。
GPT-4 推理: 使用 OpenAI API 自动生成图像标题、对象引用和问答对。
人工验证: 通过人工标注者验证 GPT-4V 生成的每个标注。

模型训练

基准模型: LLaVA-1.5, MiniGPT-v2, Mini-Gemini, GeoChat
微调: 在 RSVBench 数据集上对每个模型进行 5 个周期的微调，使用 LoRA 微调，秩为 64。

数据集影响

社会影响: 支持高级视觉语言模型的训练和评估，提升其在遥感中的应用能力。
偏见讨论: 尽管通过人工验证确保高质量标注，但视觉数据的解释可能存在主观偏见。
其他已知限制: 地理多样性受限于 DOTA-v2 和 DIOR 数据集覆盖的区域。

许可证信息

许可证: Creative Commons Attribution Non Commercial 4.0

未来工作

扩展计划: 计划将 VRSBench 扩展到包括红外图像、多光谱和超光谱图像、合成孔径雷达（SAR）图像和时间数据集在内的多种遥感数据类型。

引用信息

bibtex @misc{li2024vrsbench, title={VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding}, author={Xiang Li, Jian Ding, Mohamed Elhoseiny}, year={2024}, eprint={xxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }

AI搜集汇总

数据集介绍

构建方式

VRSBench数据集的构建采用了综合数据工程步骤，包括属性提取、提示工程、GPT-4推断以及人工验证。首先，从现有对象检测数据集中提取图像信息和对象信息；其次，设计指令提示GPT-4V生成详细的图像描述、对象指引用以及问题答案对；然后，通过调用OpenAI API自动生成所需数据；最后，通过人工标注者的验证以提高数据集质量。

特点

VRSBench是一个用于遥感图像理解的多样化视觉语言基准数据集，包含29,614张带有详细描述的遥感图像、52,472个对象指引用以及3123,221个视觉问题答案对。该数据集支持视觉语言模型在广泛的遥感图像理解任务上的训练与评估，并有助于提升模型处理复杂现实世界场景的能力。

使用方法

使用VRSBench数据集时，可以通过HuggingFace的datasets库加载。例如，使用load_dataset函数加载训练数据集，并启用streaming模式以适应大数据处理。数据集的注释文件中包含了对象角点坐标、对象边界框坐标以及对象唯一性等信息，可用于模型训练和评估。

背景与挑战

背景概述

VRSBench，作为一款适用于遥感图像理解的多样化视觉语言基准数据集，由Xiang Li、Jian Ding和Mohamed Elhoseiny于2024年构建。该数据集包含29,614张带有详细注释的遥感图像，52,472个对象引用和3123,221个视觉问答对，旨在促进视觉语言模型在遥感图像理解任务中的训练与评估。VRSBench的创建，不仅为远程传感领域提供了一项重要的研究资源，而且对计算机视觉和视觉语言模型的训练与评估产生了深远影响。

当前挑战

该数据集在构建和应用过程中面临的挑战主要包括：如何确保视觉数据注释的客观性和准确性，以减少主观因素带来的偏差；如何处理有限地理多样性带来的局限性，以增强模型在不同地理环境下的泛化能力；以及如何扩展数据集以包含更多种类的遥感数据，如红外图像、多光谱和超光谱图像、合成孔径雷达图像和时间序列数据，从而提高遥感应用在不同观测条件下的准确性和时效性。

常用场景

经典使用场景

在远程感知领域，VRSBench数据集作为一项多功能视觉语言基准，其经典的使用场景主要集中于对遥感图像的理解与解析。该数据集通过提供丰富的图像、详细的字幕、对象引用以及视觉问答对，为视觉语言模型的训练和评估提供了全面的支撑，进而使得模型能够应对遥感图像理解任务中的多样化挑战。

实际应用

实际应用方面，VRSBench数据集的应用场景广泛，涵盖了环境监测、资源管理、灾害评估等多个领域。借助该数据集训练的模型能够有效提升遥感图像解析的自动化水平，为决策制定提供科学依据，助力于实现更高效的空间信息管理。

衍生相关工作

基于VRSBench数据集，已经衍生出了一系列经典的相关工作，包括但不限于LLaVA-1.5、MiniGPT-v2、Mini-Gemini以及GeoChat等模型的开发与应用。这些工作不仅展示了视觉语言模型在遥感图像理解方面的潜力，也为后续的研究和模型优化提供了宝贵的经验和数据资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

LANDSLIDE DETECTION

该数据集专注于山体滑坡现象的识别与分类，旨在为改进YOLOv8模型提供高质量的训练数据。数据集包含1600幅图像，类别数量为1，具体类别为“LANDSLIDE”。数据集的构建考虑了山体滑坡的多样性与复杂性，确保模型在实际应用中具备良好的泛化能力。

github 收录

VEDAI

用于训练YOLO模型的VEDAI数据集，包含图像和标签，用于目标检测和跟踪。

github 收录

UAVDT Dataset

The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.

datasetninja.com 收录

GREAT Dataset

我们提出了GREAT数据集：一个从复杂城市环境中车辆搭载平台收集的新型多传感器原始观测数据集，具有高精度多频GNSS接收器、战术级IMU、MEMS IMU、两个CMOS相机和LiDAR。所有这些传感器实现了硬件级别的时间同步，并且它们的时空关系得到了良好的校准。该数据集包括八个序列，涵盖武汉大学校园和城市郊区的环境。该数据集旨在评估各种多传感器融合导航算法的性能。

github 收录