SPARK
收藏SPARK: 多传感器感知与推理基准数据集
简介
SPARK 是一个用于测量多传感器大规模视觉语言模型感知和推理能力的基准数据集。该数据集包含四种传感器(RGB、热成像、深度、X射线)和六种类型的问答(存在性、计数、位置、场景描述、上下文推理、传感器推理)。数据集包含约6000个问答,分为多传感器感知和多传感器推理两大类。
数据集下载
数据集已上传至 Huggingface,可通过以下代码下载: python from datasets import load_dataset test_dataset = load_dataset("topyun/SPARK", split="train")
评估方法
提供了两个示例代码用于评估:
- Open Model: test.py
- Closed Model: test_closed_models.py
示例运行命令
-
使用 4 个 GPU 运行 llava-1.5-7b 模型: bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=4 test.py --batch_size 1 --model llava
-
使用 1 个 GPU 运行 gpt-4o 模型: bash accelerate launch --config_file utils/ddp_accel_fp16.yaml --num_processes=$n_gpu test_closed_models.py --batch_size 8 --model gpt --multiprocess True
提示
评估方法仅检查答案是否以 A, B, C, D, yes, 或 no 开头。如果模型提供意外答案,可在提示末尾添加 "Do not include any additional text." 以解决此问题。




