xiang709/VRSBench
收藏Hugging Face2024-07-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/xiang709/VRSBench
下载链接
链接失效反馈官方服务:
资源简介:
VRSBench是一个用于遥感图像理解的多功能视觉-语言基准数据集。它包含29,614张遥感图像,每张图像都有详细的描述,52,472个对象引用,以及3,123,221个视觉问答对。这些数据支持广泛的遥感图像理解任务的训练和评估。数据集通过多个数据工程步骤构建,包括属性提取、提示工程、GPT-4推理和人工验证。此外,数据集还支持模型训练,展示了LVMs在遥感图像理解中的潜力,并讨论了数据集的社会影响、偏见、已知限制和未来工作。
VRSBench is a Versatile Vision-Language Benchmark for Remote Sensing Image Understanding. It consists of 29,614 remote sensing images with detailed captions, 52,472 object refers, and 3,123,221 visual question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. The dataset is constructed through multiple data engineering steps, including attribute extraction, prompting engineering, GPT-4 inference, and human verification. Additionally, it supports model training, demonstrating the potential of LVMs in remote sensing image understanding, and discusses the datasets social impact, biases, known limitations, and future work.
提供机构:
xiang709
原始信息汇总
VRSBench 数据集概述
数据集基本信息
- 许可证: Creative Commons Attribution Non Commercial 4.0
- 任务类别: 视觉问答、文本生成
- 语言: 英语
- 名称: VRSBench
- 大小类别: 10K<n<100K
- 标签: 遥感、视觉语言模型
数据集内容
- 图像数量: 29,614 张遥感图像
- 对象标注: 52,472 个对象标注
- 视觉问答对: 312,221 对
数据集构建
- 属性提取: 从现有对象检测数据集中提取图像和对象信息。
- 提示工程: 设计指令以提示 GPT-4V 生成详细的图像标题、对象引用和问答对。
- GPT-4 推理: 使用 OpenAI API 自动生成图像标题、对象引用和问答对。
- 人工验证: 通过人工标注者验证 GPT-4V 生成的每个标注。
模型训练
- 基准模型: LLaVA-1.5, MiniGPT-v2, Mini-Gemini, GeoChat
- 微调: 在 RSVBench 数据集上对每个模型进行 5 个周期的微调,使用 LoRA 微调,秩为 64。
数据集影响
- 社会影响: 支持高级视觉语言模型的训练和评估,提升其在遥感中的应用能力。
- 偏见讨论: 尽管通过人工验证确保高质量标注,但视觉数据的解释可能存在主观偏见。
- 其他已知限制: 地理多样性受限于 DOTA-v2 和 DIOR 数据集覆盖的区域。
许可证信息
- 许可证: Creative Commons Attribution Non Commercial 4.0
未来工作
- 扩展计划: 计划将 VRSBench 扩展到包括红外图像、多光谱和超光谱图像、合成孔径雷达(SAR)图像和时间数据集在内的多种遥感数据类型。
引用信息
bibtex @misc{li2024vrsbench, title={VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding}, author={Xiang Li, Jian Ding, Mohamed Elhoseiny}, year={2024}, eprint={xxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }
搜集汇总
数据集介绍

构建方式
VRSBench数据集的构建采用了综合数据工程步骤,包括属性提取、提示工程、GPT-4推断以及人工验证。首先,从现有对象检测数据集中提取图像信息和对象信息;其次,设计指令提示GPT-4V生成详细的图像描述、对象指引用以及问题答案对;然后,通过调用OpenAI API自动生成所需数据;最后,通过人工标注者的验证以提高数据集质量。
特点
VRSBench是一个用于遥感图像理解的多样化视觉语言基准数据集,包含29,614张带有详细描述的遥感图像、52,472个对象指引用以及3123,221个视觉问题答案对。该数据集支持视觉语言模型在广泛的遥感图像理解任务上的训练与评估,并有助于提升模型处理复杂现实世界场景的能力。
使用方法
使用VRSBench数据集时,可以通过HuggingFace的datasets库加载。例如,使用load_dataset函数加载训练数据集,并启用streaming模式以适应大数据处理。数据集的注释文件中包含了对象角点坐标、对象边界框坐标以及对象唯一性等信息,可用于模型训练和评估。
背景与挑战
背景概述
VRSBench,作为一款适用于遥感图像理解的多样化视觉语言基准数据集,由Xiang Li、Jian Ding和Mohamed Elhoseiny于2024年构建。该数据集包含29,614张带有详细注释的遥感图像,52,472个对象引用和3123,221个视觉问答对,旨在促进视觉语言模型在遥感图像理解任务中的训练与评估。VRSBench的创建,不仅为远程传感领域提供了一项重要的研究资源,而且对计算机视觉和视觉语言模型的训练与评估产生了深远影响。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:如何确保视觉数据注释的客观性和准确性,以减少主观因素带来的偏差;如何处理有限地理多样性带来的局限性,以增强模型在不同地理环境下的泛化能力;以及如何扩展数据集以包含更多种类的遥感数据,如红外图像、多光谱和超光谱图像、合成孔径雷达图像和时间序列数据,从而提高遥感应用在不同观测条件下的准确性和时效性。
常用场景
经典使用场景
在远程感知领域,VRSBench数据集作为一项多功能视觉语言基准,其经典的使用场景主要集中于对遥感图像的理解与解析。该数据集通过提供丰富的图像、详细的字幕、对象引用以及视觉问答对,为视觉语言模型的训练和评估提供了全面的支撑,进而使得模型能够应对遥感图像理解任务中的多样化挑战。
实际应用
实际应用方面,VRSBench数据集的应用场景广泛,涵盖了环境监测、资源管理、灾害评估等多个领域。借助该数据集训练的模型能够有效提升遥感图像解析的自动化水平,为决策制定提供科学依据,助力于实现更高效的空间信息管理。
衍生相关工作
基于VRSBench数据集,已经衍生出了一系列经典的相关工作,包括但不限于LLaVA-1.5、MiniGPT-v2、Mini-Gemini以及GeoChat等模型的开发与应用。这些工作不仅展示了视觉语言模型在遥感图像理解方面的潜力,也为后续的研究和模型优化提供了宝贵的经验和数据资源。
以上内容由遇见数据集搜集并总结生成



