SPARK
收藏SPARK: 多传感器感知与推理基准
简介
SPARK是一个用于测量大规模视觉语言模型对多传感器感知和推理能力的基准数据集。该数据集包含四种传感器(RGB、热成像、深度、X射线)和六种类型的问答(存在性、计数、位置、场景描述、上下文推理、传感器推理)。数据集包含约6,000个问题和答案,分为多传感器感知和多传感器推理两大类。
数据集下载
数据集已上传至Huggingface,可通过以下代码下载: python from datasets import load_dataset test_dataset = load_dataset("topyun/SPARK", split="train")
评估方法
提供了两个示例代码用于评估:
- 开放模型:test.py
- 封闭模型:test_closed_models.py
运行示例
-
使用4个GPU运行llava-1.5-7b模型: bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=4 test.py --batch_size 1 --model llava
-
使用1个GPU运行gpt-4o模型: bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=$n_gpu test_closed_models.py --batch_size 8 --model gpt --multiprocess True
引用
bibtex @misc{yu2024sparkmultivisionsensorperception, title={SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models}, author={Youngjoon Yu and Sangyun Chung and Byung-Kwan Lee and Yong Man Ro}, year={2024}, eprint={2408.12114}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2408.12114}, }

- 1SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models韩国科学技术院集成视觉语言实验室 · 2024年



