ColorBench
收藏ColorBench 数据集概述
基本信息
- 数据集名称: ColorBench
- 论文地址: https://arxiv.org/abs/2504.10514
- 数据集地址: https://huggingface.co/datasets/umd-zhou-lab/ColorBench
数据集亮点
- 规模: 超过5,800个图像-文本问题
- 覆盖范围: 涵盖多样化的应用场景和实际挑战
- 任务分类: 3大类11项任务,包括感知、推理和鲁棒性
主要发现
- 语言和视觉部分的缩放规律: 颜色理解的缩放规律仍然存在,但较弱且主要依赖于语言模型部分
- 模型性能差距: 不同VLM的绝对性能相对较低,不同模型之间的差距不大
- 推理步骤的影响: 添加推理步骤可以提高VLM在ColorBench任务上的性能
- 颜色线索的影响: 颜色线索在大多数任务中被VLM利用,但在颜色错觉和模仿任务中可能会误导VLM
数据集介绍
- 设计目的: 全面评估VLM在颜色感知、颜色推理和颜色鲁棒性三个关键维度的颜色理解能力
- 构成:
- 1,448个实例
- 超过5,800个图像-文本问题
- 11项任务(颜色识别、颜色提取、物体识别、颜色比例、颜色比较、颜色计数、物体计数、颜色错觉、颜色模仿、色盲和颜色鲁棒性)
- 数据类型:
- 颜色感知和颜色推理: 每个实例包含一张图像、一个问题及3至6个选项
- 颜色鲁棒性: 每个实例包含10个多选题,包括一张种子图像和9张经过颜色编辑的图像
评估模型
- 评估范围: 32种视觉语言模型(VLM),涵盖不同大小和架构的LLM
- 代表性模型: GPT-4o、Gemini-2-flash、LLaVA-OV、LLaVA-NEXT、Cambrian-1、InternVL2、Qwen2.5-VL和Eagle
评估流程
-
环境配置: bash conda create -n colorbench python=3.11 conda activate colorbench pip3 install -r requirements.txt pip install flash-attn==2.7.3 --no-build-isolation
-
数据集查看: python from datasets import load_dataset dataset = load_dataset("umd-zhou-lab/ColorBench", "test") print(dataset["test"][0])
-
模型推理: bash bash model_inference.sh
-
结果评估: bash python3 evaluation/metrics_eval.py --result_dir=RESULT_DIR --save_dir=SAVE_DIR
引用
bibtex @misc{liang2025colorbenchvlmsunderstandcolorful, title={ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness}, author={Yijun Liang and Ming Li and Chenrui Fan and Ziyue Li and Dang Nguyen and Kwesi Cobbina and Shweta Bhardwaj and Jiuhai Chen and Fuxiao Liu and Tianyi Zhou}, year={2025}, eprint={2504.10514}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2504.10514}, }




