GEOBench-VLM|视觉-语言模型数据集|地理空间任务数据集

github2024-11-29 更新2024-11-30 收录

视觉-语言模型

地理空间任务

下载链接：

https://github.com/The-AI-Alliance/GEO-Bench-VLM

下载链接

链接失效反馈

资源简介：

GEOBench-VLM是一个专门设计用于评估视觉-语言模型在地理空间任务中的基准数据集。该数据集包括超过10,000个问题，涵盖了地球观测中的多种任务，如时间理解、参考分割、视觉定位、场景理解、计数、详细图像描述和关系推理。每个任务都旨在捕捉独特的领域特定挑战，涉及不同的视觉条件和对象尺度，适用于灾害评估、城市规划和环境监测等应用。

创建时间：

2024-11-25

原始信息汇总

GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks

💡 概述

GEOBench-VLM 是一个专门用于评估视觉语言模型（VLM）在地理空间任务上的基准测试。该基准测试包含超过10,000个问题，涵盖了地球观测任务中的多种任务，如时间理解、指代分割、视觉定位、场景理解、计数、详细图像描述和关系推理。每个任务都旨在捕捉独特的领域特定挑战，涉及不同的视觉条件和对象尺度，适用于灾害评估、城市规划和环境监测等应用。

🏆 贡献

GEOBench-VLM 基准测试：引入了一个专门用于评估 VLM 在地理空间任务上的基准测试套件，涵盖8个主要类别和31个子任务，包含超过10,000个手动验证的问题。
VLM 评估：详细评估了十个最先进的 VLM，包括通用（开源和闭源）和任务特定的地理空间 VLM，突出了它们在处理地理空间任务方面的能力和局限性。
地理空间任务性能分析：分析了 VLM 在多种任务中的表现，包括场景分类、计数、变化检测、关系预测、视觉定位、图像描述、分割、灾害检测和时间分析，提供了改进 VLM 以用于地理空间应用的关键见解。

🗂️ 基准测试比较

提供了通用和地理空间特定数据集与基准测试的概述，详细说明了模态、数据源、答案类型和注释类型。

🔍 数据集注释流程

注释流程整合了多样化的数据集、自动化工具和手动注释。任务如场景理解、对象分类和非光学分析基于分类数据集，而 GPT-4o 生成独特的多选题，包含一个正确答案、一个语义上最接近的选项和三个合理的替代选项。空间关系任务依赖于手动注释的对象对关系，通过交叉验证确保一致性。

📊 结果

总体性能：GPT-4o 在相对简单的任务中表现较好，如飞机类型分类、灾害类型分类、场景分类和土地利用分类，但在多样化的地理空间任务中平均准确率仅为40%。
时间理解结果：GPT-4o 在分类和计数任务中总体表现最佳。
指代表达检测：报告了在0.5 IoU 和0.25 IoU 下的精度。

🤖 定性结果

展示了模型在地理空间场景理解、计数、对象分类、事件检测和空间关系任务中的表现，强调了上下文推理和处理重叠视觉线索的重要性。

AI搜集汇总

数据集介绍

构建方式

GEOBench-VLM数据集的构建方式融合了多种数据源和先进的自动化工具，以及精细的手动标注流程。该数据集涵盖了从场景理解到对象分类等多个任务，利用GPT-4o生成独特的多选题，确保每个问题有一个正确答案、一个语义相近的“最接近”选项和三个合理的替代选项。空间关系任务则依赖于手动标注的对象对关系，并通过交叉验证确保一致性。此外，标题生成结合了图像、对象细节和空间交互，经过手动精炼以达到高精度。

特点

GEOBench-VLM数据集的显著特点在于其针对地理空间任务的专门设计，涵盖了从时间理解到详细图像描述等多个复杂任务。该数据集包含超过10,000个经过手动验证的问题，涉及多种视觉条件和对象尺度，旨在捕捉地理空间应用中的独特挑战。此外，数据集的多样性和细致的标注流程确保了其在评估视觉语言模型在地理空间任务中的有效性和局限性。

使用方法

GEOBench-VLM数据集适用于评估和改进视觉语言模型在地理空间任务中的性能。用户可以通过该数据集进行模型训练和验证，以提升其在场景理解、对象计数、定位、细粒度分类和时间分析等任务中的表现。数据集的详细标注和多样性使其成为研究者和开发者优化和测试模型的宝贵资源。

背景与挑战

背景概述

GEOBench-VLM数据集由Mohamed bin Zayed University of AI、University College London、Linköping University、IBM Research Europe、ServiceNow Research和Australian National University等机构的研究人员共同创建。该数据集专注于评估视觉语言模型（VLMs）在地理空间任务中的表现，特别是针对地球观测、城市规划和灾害管理等应用领域。GEOBench-VLM包含超过10,000个问题，涵盖了时间理解、指称分割、视觉定位、场景理解、计数、详细图像描述和关系推理等任务。其设计旨在捕捉地理空间数据特有的复杂性，如时间分析、大规模对象计数、微小对象检测以及实体间关系的理解。

当前挑战

GEOBench-VLM数据集面临的挑战主要集中在两个方面：一是解决地理空间领域特有的复杂问题，如时间序列分析、大规模对象计数和微小对象检测；二是构建过程中遇到的挑战，包括数据集的多样化视觉条件和对象尺度的处理，以及对复杂地理空间任务的细致理解。此外，现有视觉语言模型在处理地理空间特定任务时表现出的局限性，如GPT-4o在多项选择题中仅达到40%的准确率，也突显了进一步改进的必要性。

常用场景

经典使用场景

GEOBench-VLM数据集的经典使用场景主要集中在评估视觉-语言模型（VLMs）在地理空间任务中的表现。该数据集通过涵盖超过10,000个问题，涉及时间理解、指称分割、视觉定位、场景理解、计数、详细图像描述和关系推理等任务，全面评估VLMs在地球观测中的应用能力。这些任务旨在捕捉地理空间领域特有的挑战，如复杂视觉条件和对象尺度变化，以及对灾难评估、城市规划和环境监测等应用的细致理解。

解决学术问题

GEOBench-VLM数据集解决了学术界在评估视觉-语言模型（VLMs）在地理空间应用中的独特需求。传统VLMs的通用基准无法应对地理空间数据的复杂性，如时间分析、大规模对象计数、微小对象检测和实体间关系理解。GEOBench-VLM通过提供专门设计的地理空间任务，填补了这一空白，促进了VLMs在环境监测、城市规划和灾难管理等领域的应用研究，具有重要的学术意义和影响。

衍生相关工作

GEOBench-VLM数据集的发布催生了多项相关研究工作，特别是在视觉-语言模型（VLMs）在地理空间任务中的应用。研究者们利用该数据集评估和改进现有VLMs的性能，探索其在场景分类、对象计数、变化检测和关系预测等任务中的潜力。此外，该数据集还激发了对VLMs在复杂地理空间环境中表现的研究，推动了模型在微小对象检测、时间分析和多模态数据融合等方面的创新应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型，包含3103张乳腺X光片，其中465张有多个异常。数据集分为训练集和测试集，还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

CMAB

CMAB数据集由清华大学创建，是中国首个全国范围的多属性建筑数据集，涵盖了3667个自然城市，总面积达213亿平方米。该数据集通过集成多源数据，如高分辨率Google Earth影像和街景图像，生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型，确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究，旨在提供详细的城市3D物理和社会结构信息，支持城市化进程和政府决策。

arXiv 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统（ICS）安全研究的数据集，包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学（Singapore University of Technology and Design）发布，旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录