GEOBench-VLM

Hugging Face2024-12-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/aialliance/GEOBench-VLM

下载链接

链接失效反馈

官方服务：

资源简介：

GEOBench-VLM是一个综合性的基准测试数据集，专门用于评估视觉语言模型在地理空间任务中的表现。它包含超过10,000个手动验证的指令，涵盖了多种视觉条件、对象类型和尺度。数据集分为多个子集，每个子集对应不同的任务，如场景理解、对象计数、定位、细粒度分类和时间分析。每个子集包含图像和相关问题，以及对应的答案。数据集的结构包括图像路径、问题ID、任务类型、提示、选项、正确答案等字段。

创建时间：

2024-12-02

原始信息汇总

GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks

概述

GEOBench-VLM 是一个专门为评估视觉语言模型（VLM）在地理空间任务中的表现而设计的综合基准。该基准旨在解决现有通用 VLM 基准在处理地理空间数据复杂性方面的不足，特别是在环境监测、城市规划和灾害管理等应用中的需求。

数据集结构

数据集文件夹

数据集包含多个文件夹，每个文件夹代表一个特定的子集或任务：

GEOBench-VLM/Single: 包含需要单张图像作为输入的图像和对应问题。
GEOBench-VLM/Temporal: 包含专注于时间理解任务的图像和问题。
GEOBench-VLM/Ref-Det: 包含与引用表达检测任务相关的图像和问题。
GEOBench-VLM/Ref-Seg: 包含与引用表达分割任务相关的图像和问题。
GEOBench-VLM/Captioning: 包含与字幕任务相关的图像和问题。

每个文件夹都有自己的 qa.json 文件，提供与图像和答案相关的问题。

数据实例

一个 question 的示例如下： json { "image_path": "images/single_347.bmp", "ground_truth": "Nimitz-class aircraft carrier", "ground_truth_option": "E", "options_list": [ "Maestrale-class frigate", "Murasame-class destroyer", "Mega yacht", "Kitty Hawk-class aircraft carrier", "Nimitz-class aircraft carrier" ], "options": "A. Maestrale-class frigate B. Murasame-class destroyer C. Mega yacht D. Kitty Hawk-class aircraft carrier E. Nimitz-class aircraft carrier", "prompts": [ "What type of ship is visible in this image?", "Which class or category does the identified vessel belong to?", "What is the primary role or purpose of the ship in this image?", "Which specific type of military or civilian ship is shown in the scene?", "What class of naval or transport vessel is depicted in the given image?" ], "task": "Ship Type Classification", "image_name": "single_347.bmp", "question_id": 0, "cls_description": "" }

数据字段

数据字段包括：

image_path: 与问题对应的图像的相对路径。
file_name: 图像文件的名称。
question_id: 每个问题的唯一标识符。
task: 特定的细粒度任务。
prompts: 与问题相关的多个提示列表。
options: 五个多选答案，格式为单个字符串。
options_list: 包含各个选项的 Python 列表。
ground_truth: 问题的正确答案。
ground_truth_option: 正确答案的索引或标签。
cls_description: 提示中使用的类或术语的附加详细信息。

搜集汇总

数据集介绍

构建方式

在地理空间应用领域，现有的视觉语言模型（VLMs）基准测试未能充分应对其独特需求。为此，GEOBench-VLM数据集应运而生，专门设计用于评估VLMs在地理空间任务中的表现。该数据集通过手动验证的方式，收集了超过10,000条指令，涵盖场景理解、对象计数、定位、细粒度分类和时间分析等多项任务。数据集的构建不仅考虑了视觉条件、对象类型和尺度的多样性，还通过多个子集（如单图像任务、时间任务、引用检测和分割任务等）来全面评估模型在不同地理空间任务中的性能。

特点

GEOBench-VLM数据集的显著特点在于其针对地理空间任务的专门设计。数据集不仅包含了丰富的视觉条件和对象类型，还引入了时间分析等独特任务，以模拟真实世界中的地理空间挑战。此外，数据集中的每个任务都配备了详细的提示和多选答案，确保了评估的全面性和准确性。通过这种方式，GEOBench-VLM为研究者提供了一个全面的工具，用于测试和改进VLMs在地理空间领域的应用。

使用方法

使用GEOBench-VLM数据集时，研究者可以针对不同的任务子集进行模型评估。每个子集包含图像和相应的问答数据，研究者可以通过加载`qa.json`文件来获取具体的任务和答案。数据集提供了多种数据字段，如图像路径、任务类型、提示列表、选项和正确答案等，便于模型进行训练和测试。通过这些数据，研究者可以评估模型在地理空间任务中的表现，并进一步优化其性能。

背景与挑战

背景概述

在视觉语言模型（Vision-Language Models, VLMs）领域，尽管已有众多基准测试专注于通用任务的评估，但这些基准在应对地理空间应用的独特需求时显得力不从心。地理空间数据在环境监测、城市规划和灾害管理等应用中至关重要，其复杂性包括时间分析、大规模物体计数、微小物体检测以及遥感图像中实体间关系的理解。为填补这一空白，GEOBench-VLM数据集应运而生，由AI Alliance等机构的研究人员于近期创建。该数据集旨在评估VLMs在地理空间任务中的表现，涵盖场景理解、物体计数、定位、细粒度分类和时间分析等任务，包含超过10,000条手动验证的指令，覆盖多种视觉条件、物体类型和尺度。

当前挑战

GEOBench-VLM数据集面临的挑战主要集中在两个方面。首先，地理空间任务的复杂性要求模型具备处理时间序列数据、大规模物体计数和微小物体检测的能力，这对现有VLMs提出了更高的要求。其次，数据集构建过程中，研究人员需应对多样化的视觉条件和物体类型，确保数据集的广泛适用性和代表性。尽管现有VLMs在通用任务中表现优异，但在地理空间特定任务中，如GPT4o在多项选择题上的准确率仅为40%，显示出进一步改进的巨大空间。

常用场景

经典使用场景

在地理空间领域，视觉语言模型（VLM）的应用面临诸多独特挑战，如时间分析、大规模物体计数、微小物体检测以及实体间关系的理解。GEOBench-VLM数据集为此提供了经典的使用场景，主要用于评估VLM在地理空间任务中的表现，包括场景理解、物体计数、定位、细粒度分类和时间分析。通过该数据集，研究者能够系统地测试和优化VLM在处理遥感图像时的性能，确保其在复杂地理环境中的准确性和鲁棒性。

实际应用

在实际应用中，GEOBench-VLM数据集为多个关键领域提供了技术支持。例如，在环境监测中，该数据集可用于评估VLM在识别和分类自然灾害（如森林火灾或洪水）中的表现；在城市规划中，它有助于分析城市扩张和基础设施变化；在灾害管理中，它能够帮助快速识别受灾区域和评估损失。通过这些应用，GEOBench-VLM不仅提升了VLM在地理空间任务中的实用性，还为相关领域的决策提供了科学依据。

衍生相关工作

GEOBench-VLM数据集的发布催生了一系列相关研究工作。例如，研究者利用该数据集开发了新的模型架构，以提高VLM在地理空间任务中的准确性；同时，也有学者基于此数据集提出了新的评估方法，以更全面地衡量VLM在不同地理环境下的表现。此外，该数据集还激发了对VLM在时间序列分析和多模态数据融合方面的深入研究，推动了地理空间智能技术的整体发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集