SPARK

Name: SPARK
Creator: 韩国科学技术院集成视觉语言实验室
Published: 2024-08-23 16:35:30
License: 暂无描述

arXiv2024-08-23 更新2024-08-24 收录

下载链接：

https://github.com/top-yun/SPARK

下载链接

链接失效反馈

官方服务：

资源简介：

SPARK数据集由韩国科学技术院集成视觉语言实验室开发，专注于评估大型视觉语言模型在多视觉传感器感知和推理方面的性能。该数据集包含6,248个视觉语言测试样本，涵盖多种传感器相关问题，旨在深入研究模型对物理传感器知识的理解和应用。数据集的创建过程涉及多种视觉感知和推理任务的设计，以确保模型能够准确处理和理解来自不同视觉传感器的数据。SPARK数据集主要应用于提升模型在复杂传感器相关问题上的推理能力，特别是在需要考虑物理环境的领域，如自动驾驶、安全系统和医学图像诊断。

The SPARK dataset was developed by the Integrated Vision and Language Laboratory of the Korea Advanced Institute of Science and Technology (KAIST), focusing on evaluating the performance of large vision-language models in multi-visual-sensor perception and reasoning tasks. This dataset includes 6,248 vision-language test samples covering a wide range of sensor-related questions, aiming to conduct in-depth research on models' understanding and application of physical sensor knowledge. The development process of the SPARK dataset involves designing diverse visual perception and reasoning tasks to ensure that models can accurately process and comprehend data from different visual sensors. The SPARK dataset is primarily applied to improve models' reasoning abilities on complex sensor-related problems, especially in physical environment-aware fields such as autonomous driving, security systems, and medical image diagnostics.

提供机构：

韩国科学技术院集成视觉语言实验室

创建时间：

2024-08-22

原始信息汇总

SPARK: 多传感器感知与推理基准

简介

SPARK是一个用于测量大规模视觉语言模型对多传感器感知和推理能力的基准数据集。该数据集包含四种传感器（RGB、热成像、深度、X射线）和六种类型的问答（存在性、计数、位置、场景描述、上下文推理、传感器推理）。数据集包含约6,000个问题和答案，分为多传感器感知和多传感器推理两大类。

数据集下载

数据集已上传至Huggingface，可通过以下代码下载： python from datasets import load_dataset test_dataset = load_dataset("topyun/SPARK", split="train")

评估方法

提供了两个示例代码用于评估：

开放模型：test.py
封闭模型：test_closed_models.py

运行示例

使用4个GPU运行llava-1.5-7b模型： bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=4 test.py --batch_size 1 --model llava
使用1个GPU运行gpt-4o模型： bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=$n_gpu test_closed_models.py --batch_size 8 --model gpt --multiprocess True

引用

bibtex @misc{yu2024sparkmultivisionsensorperception, title={SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models}, author={Youngjoon Yu and Sangyun Chung and Byung-Kwan Lee and Yong Man Ro}, year={2024}, eprint={2408.12114}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.12114}, }

搜集汇总

数据集介绍

构建方式

SPARK数据集的构建采用了自动化的方法，通过生成6,248个视觉语言测试样本，涵盖了不同格式的多视觉感知和推理任务。这些样本旨在评估大型视觉语言模型在理解物理传感器知识方面的能力。数据集的构建利用了多种公共数据集，包括MS-COCO、M3FD、Dog&People、RGB-D场景数据集和UNIFESP Xray身体部位分类器竞赛数据集，以确保样本的多样性和覆盖面。

使用方法

使用SPARK数据集时，研究人员可以将其作为基准来评估大型视觉语言模型在处理多视觉传感器数据方面的性能。数据集中的测试样本可以用于训练和验证模型，以改善它们在多视觉感知和推理任务上的表现。通过分析模型在SPARK数据集上的表现，研究人员可以识别模型的弱点和局限性，并针对性地进行改进。此外，数据集还提供了代码和数据，方便研究人员进行实验和研究。

背景与挑战

背景概述

在大型视觉语言模型（LVLMs）的研究领域中，Youngjoon Yu等人于2024年8月22日在arXiv上发表了题为“SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models”的论文，旨在解决当前LVLMs在处理多视觉传感器数据时的局限性。该论文指出，现有的LVLMs往往忽视了不同视觉传感器（如热传感器、深度传感器和医学X光图像）的物理特性，导致它们难以准确地将图像信息与物理环境相结合。为此，研究团队提出了一个名为SPARK的基准测试，旨在评估LVLMs在多视觉感知和多视觉推理方面的能力。该基准测试通过自动生成6,248个视觉语言测试样本，涵盖了不同类型的传感器相关问题，并对十个领先的LVLMs进行了评估。

当前挑战

SPARK数据集所面临的挑战主要表现在两个方面。首先，LVLMs在多视觉传感器数据上的感知和推理能力不足，这限制了它们在实际物理环境中的应用。其次，构建一个能够准确评估LVLMs在多视觉传感器知识理解能力的基准测试，需要克服数据收集、任务设计、模型评估等方面的困难。为了解决这些问题，SPARK基准测试采用了多种设计策略，包括使用Yes-or-No和多项选择题来评估模型的多视觉感知和推理能力，以及通过添加传感器信息作为文本提示来增强模型的推理能力。然而，这些方法仍然需要进一步的优化和改进，以更好地评估LVLMs在多视觉传感器数据上的理解能力。

常用场景

经典使用场景

SPARK数据集主要用于评估大型视觉语言模型(LVLMs)在多视觉感知和多视觉推理方面的能力。该数据集包含了6,248个自动生成的视觉语言测试样本，涵盖了不同类型的传感器相关问题，例如热成像、深度成像和医学X光图像。通过对这些样本的分析，可以评估LVLMs在不同格式下对多视觉传感器知识的掌握程度。

解决学术问题

SPARK数据集解决了当前LVLMs在多视觉传感器信息理解上的不足。尽管LVLMs在处理与文本对齐的视觉输入方面取得了显著进展，但它们往往忽视了个别视觉传感器的物理特性，导致无法准确传达多视觉传感器信息及其相应的上下文知识。SPARK数据集通过生成各种视觉语言测试样本，有效地评估了LVLMs在不同多视觉传感器上的感知和推理能力，揭示了当前模型在理解多视觉传感器数据物理意义方面的局限性。

实际应用

SPARK数据集的实际应用场景广泛，包括但不限于自动驾驶、安全系统和医学图像诊断等领域。在这些领域，LVLMs的决策至关重要，而准确理解多视觉传感器数据对于做出正确的决策至关重要。通过SPARK数据集的评估，研究人员可以更好地了解LVLMs在这些领域的实际表现，并为改进和优化LVLMs提供有价值的信息。

数据集最近研究