five

xiang709/VRSBench|遥感图像理解数据集|视觉-语言模型数据集

收藏
hugging_face2024-07-10 更新2024-06-15 收录
遥感图像理解
视觉-语言模型
下载链接:
https://hf-mirror.com/datasets/xiang709/VRSBench
下载链接
链接失效反馈
资源简介:
VRSBench是一个用于遥感图像理解的多功能视觉-语言基准数据集。它包含29,614张遥感图像,每张图像都有详细的描述,52,472个对象引用,以及3,123,221个视觉问答对。这些数据支持广泛的遥感图像理解任务的训练和评估。数据集通过多个数据工程步骤构建,包括属性提取、提示工程、GPT-4推理和人工验证。此外,数据集还支持模型训练,展示了LVMs在遥感图像理解中的潜力,并讨论了数据集的社会影响、偏见、已知限制和未来工作。

VRSBench is a Versatile Vision-Language Benchmark for Remote Sensing Image Understanding. It consists of 29,614 remote sensing images with detailed captions, 52,472 object refers, and 3,123,221 visual question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. The dataset is constructed through multiple data engineering steps, including attribute extraction, prompting engineering, GPT-4 inference, and human verification. Additionally, it supports model training, demonstrating the potential of LVMs in remote sensing image understanding, and discusses the datasets social impact, biases, known limitations, and future work.
提供机构:
xiang709
原始信息汇总

VRSBench 数据集概述

数据集基本信息

  • 许可证: Creative Commons Attribution Non Commercial 4.0
  • 任务类别: 视觉问答、文本生成
  • 语言: 英语
  • 名称: VRSBench
  • 大小类别: 10K<n<100K
  • 标签: 遥感、视觉语言模型

数据集内容

  • 图像数量: 29,614 张遥感图像
  • 对象标注: 52,472 个对象标注
  • 视觉问答对: 312,221 对

数据集构建

  • 属性提取: 从现有对象检测数据集中提取图像和对象信息。
  • 提示工程: 设计指令以提示 GPT-4V 生成详细的图像标题、对象引用和问答对。
  • GPT-4 推理: 使用 OpenAI API 自动生成图像标题、对象引用和问答对。
  • 人工验证: 通过人工标注者验证 GPT-4V 生成的每个标注。

模型训练

  • 基准模型: LLaVA-1.5, MiniGPT-v2, Mini-Gemini, GeoChat
  • 微调: 在 RSVBench 数据集上对每个模型进行 5 个周期的微调,使用 LoRA 微调,秩为 64。

数据集影响

  • 社会影响: 支持高级视觉语言模型的训练和评估,提升其在遥感中的应用能力。
  • 偏见讨论: 尽管通过人工验证确保高质量标注,但视觉数据的解释可能存在主观偏见。
  • 其他已知限制: 地理多样性受限于 DOTA-v2 和 DIOR 数据集覆盖的区域。

许可证信息

  • 许可证: Creative Commons Attribution Non Commercial 4.0

未来工作

  • 扩展计划: 计划将 VRSBench 扩展到包括红外图像、多光谱和超光谱图像、合成孔径雷达(SAR)图像和时间数据集在内的多种遥感数据类型。

引用信息

bibtex @misc{li2024vrsbench, title={VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding}, author={Xiang Li, Jian Ding, Mohamed Elhoseiny}, year={2024}, eprint={xxx}, archivePrefix={arXiv}, primaryClass={cs.CV} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
VRSBench数据集的构建采用了综合数据工程步骤,包括属性提取、提示工程、GPT-4推断以及人工验证。首先,从现有对象检测数据集中提取图像信息和对象信息;其次,设计指令提示GPT-4V生成详细的图像描述、对象指引用以及问题答案对;然后,通过调用OpenAI API自动生成所需数据;最后,通过人工标注者的验证以提高数据集质量。
特点
VRSBench是一个用于遥感图像理解的多样化视觉语言基准数据集,包含29,614张带有详细描述的遥感图像、52,472个对象指引用以及3123,221个视觉问题答案对。该数据集支持视觉语言模型在广泛的遥感图像理解任务上的训练与评估,并有助于提升模型处理复杂现实世界场景的能力。
使用方法
使用VRSBench数据集时,可以通过HuggingFace的datasets库加载。例如,使用load_dataset函数加载训练数据集,并启用streaming模式以适应大数据处理。数据集的注释文件中包含了对象角点坐标、对象边界框坐标以及对象唯一性等信息,可用于模型训练和评估。
背景与挑战
背景概述
VRSBench,作为一款适用于遥感图像理解的多样化视觉语言基准数据集,由Xiang Li、Jian Ding和Mohamed Elhoseiny于2024年构建。该数据集包含29,614张带有详细注释的遥感图像,52,472个对象引用和3123,221个视觉问答对,旨在促进视觉语言模型在遥感图像理解任务中的训练与评估。VRSBench的创建,不仅为远程传感领域提供了一项重要的研究资源,而且对计算机视觉和视觉语言模型的训练与评估产生了深远影响。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:如何确保视觉数据注释的客观性和准确性,以减少主观因素带来的偏差;如何处理有限地理多样性带来的局限性,以增强模型在不同地理环境下的泛化能力;以及如何扩展数据集以包含更多种类的遥感数据,如红外图像、多光谱和超光谱图像、合成孔径雷达图像和时间序列数据,从而提高遥感应用在不同观测条件下的准确性和时效性。
常用场景
经典使用场景
在远程感知领域,VRSBench数据集作为一项多功能视觉语言基准,其经典的使用场景主要集中于对遥感图像的理解与解析。该数据集通过提供丰富的图像、详细的字幕、对象引用以及视觉问答对,为视觉语言模型的训练和评估提供了全面的支撑,进而使得模型能够应对遥感图像理解任务中的多样化挑战。
实际应用
实际应用方面,VRSBench数据集的应用场景广泛,涵盖了环境监测、资源管理、灾害评估等多个领域。借助该数据集训练的模型能够有效提升遥感图像解析的自动化水平,为决策制定提供科学依据,助力于实现更高效的空间信息管理。
衍生相关工作
基于VRSBench数据集,已经衍生出了一系列经典的相关工作,包括但不限于LLaVA-1.5、MiniGPT-v2、Mini-Gemini以及GeoChat等模型的开发与应用。这些工作不仅展示了视觉语言模型在遥感图像理解方面的潜力,也为后续的研究和模型优化提供了宝贵的经验和数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录