ColorBlindnessEval

Name: ColorBlindnessEval
Creator: Apply U
Published: 2025-09-23 22:33:21
License: 暂无描述

arXiv2025-09-23 更新2025-09-25 收录

下载链接：

https://github.com/ApplyU-ai/ColorBlindnessEval

下载链接

链接失效反馈

官方服务：

资源简介：

ColorBlindnessEval数据集由Apply U机构创建，旨在评估视觉语言模型（VLMs）在视觉对抗场景中的鲁棒性，灵感来源于石原色盲测试。该数据集包含500张类似于石原测试的图像，每张图像中都嵌入了一个从0到99的数字，颜色组合各不相同，旨在挑战VLMs准确识别复杂视觉模式中嵌入的数字信息。数据集的创建过程分为三个阶段：首先生成包含数字的参考图像；然后使用蒙特卡洛方法生成无颜色的圆盘；最后根据参考图像中圆盘的位置分配颜色。该数据集为评估和提高VLMs在实际应用中的可靠性和安全性提供了有价值的工具。

The ColorBlindnessEval dataset was created by the Apply U institution, aiming to evaluate the robustness of Vision-Language Models (VLMs) in visual adversarial scenarios, with inspiration drawn from Ishihara color blindness tests. This dataset contains 500 Ishihara test-like images, each embedding a number ranging from 0 to 99 with varying color combinations, designed to challenge VLMs to accurately recognize the embedded numerical information in complex visual patterns. The dataset's creation process is divided into three stages: first, generate reference images containing embedded numbers; second, use the Monte Carlo method to generate colorless disks; finally, assign colors based on the positions of the disks in the reference images. This dataset offers a valuable tool for evaluating and improving the reliability and safety of VLMs in real-world applications.

提供机构：

Apply U

创建时间：

2025-09-23

原始信息汇总

ColorBlindnessEval 数据集概述

数据集简介

ColorBlindnessEval 是一个新颖的基准测试数据集，旨在评估视觉语言模型在受石原色盲测试启发的视觉对抗场景中的鲁棒性。

数据集内容

图像数量：500 张
图像类型：类石原色盲测试图像
特征内容：包含从 0 到 99 的数字，具有不同的颜色组合
挑战目标：要求视觉语言模型准确识别嵌入复杂视觉模式中的数字信息

评估方法

评估模型数量：9 个视觉语言模型
提示类型：是/否提示和开放式提示
对比基准：与人类参与者的表现进行比较

主要发现

模型在对抗性环境中解释数字的能力存在局限性
存在普遍的幻觉问题
突显了在复杂视觉环境中提高视觉语言模型鲁棒性的必要性

应用价值

作为基准测试工具，用于评估和提高视觉语言模型在现实应用中的可靠性
适用于对准确性要求较高的关键应用场景

发布信息

数据集上传时间：2025 年 4 月 27 日
学术认可：已被 ICLR 研讨会（开放科学基础模型）接受

联系方式

联系人：zijian.ling@applyu.ai
交流内容：研究合作或相关对话

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，ColorBlindnessEval数据集的构建借鉴了石原色盲测试的视觉对抗原理。该数据集通过三阶段流程生成500对石原式图像：首先生成0至99数字的黑白参考图；随后采用改进的蒙特卡洛方法生成无色彩圆点基底；最终根据数字区域位置分配前景与背景色彩，其中五组色彩组合源自标准石原测试板的色值采样，确保每组色彩生成100对包含标准版与纯前景版的图像对。

特点

该数据集的核心特点在于其对抗性视觉设计，通过模拟人类色盲检测的伪等色原理，构建了色彩混淆线下的复杂图案。图像中数字由多色圆点构成，背景与前景色经过严格校准，形成细微色差挑战。数据集涵盖五组专业色彩配置，每组包含标准石原板与纯前景对照版，既能评估模型在色彩干扰下的数值识别能力，又能通过对照实验分离色彩干扰因素。这种结构为量化视觉语言模型的色彩鲁棒性提供了多维度的评估基准。

使用方法

该数据集采用四类提示模板进行系统性评估：正确数字提示（Y*/N）与错误数字提示（Y/N*）通过二值问答检验模型对数字存在的判断一致性；开放式提示（Open）要求模型直接输出识别数字；纯前景提示（Open-clear）作为对照条件消除背景干扰。评估时输入图像与提示文本至视觉语言模型，通过准确率指标量化输出与真实值的匹配程度。这种分层评估框架能有效揭示模型在对抗性视觉场景中的幻觉倾向与认知边界。

背景与挑战

背景概述

随着视觉语言模型在多模态理解领域的快速发展，其在医疗诊断、自动驾驶等高风险场景中的应用日益广泛。ColorBlindnessEval由Apply U机构的Zijian Ling等人于2025年提出，专为评估模型在色彩对抗环境下的鲁棒性而设计。该数据集基于石原色盲测试原理，构建了500张包含0至99数字的伪同色图，通过五组精心设计的色彩组合模拟人类色觉缺陷的视觉挑战。其核心研究目标在于揭示模型在复杂色彩模式下的数值识别能力与幻觉现象，为提升模型在真实场景中的可靠性提供基准支持。

当前挑战

该数据集主要针对视觉语言模型在对抗性色彩环境下的数值识别挑战，具体表现为模型易受色彩混淆干扰而产生幻觉输出，尤其在低对比度色彩组合中错误率显著上升。构建过程中的挑战包括：其一，需精确复刻石原测试的色彩混淆原理，确保色彩组合在色度学上符合人类色觉缺陷的感知特性；其二，生成算法需平衡随机性与可控性，通过蒙特卡洛方法实现圆点分布的自然性与数字轮廓的清晰度；其三，需设计多维度评估框架，通过Yes/No与开放式提示词分离模型的色彩感知与逻辑推理能力。

常用场景

经典使用场景

在视觉-语言模型（VLMs）的鲁棒性评估领域，ColorBlindnessEval数据集通过模拟石原氏色盲测试的视觉对抗场景，为模型在复杂色彩模式下的数值识别能力提供了标准化测试平台。该数据集包含500张由五组不同配色方案生成的伪等色图像，每张图像嵌入0至99的数字，要求模型在色彩干扰背景下准确提取数字信息。其经典应用体现在采用Yes/No提示与开放式提示的双重评估框架，系统化检验模型对正误数字的判别能力及抗幻觉干扰性能，例如在Y*/N提示中验证模型对正确数字的确认率，Y/N*提示中考察对错误数字的拒斥能力。

解决学术问题

该数据集针对VLMs在细粒度色彩对抗场景中的幻觉现象这一核心学术问题，揭示了模型在色彩混淆线索下的认知局限。通过对比人类与模型在标准图像与前景清晰图像上的表现差异，研究发现人类在对抗性背景下仅出现约8%的性能下降，而主流VLMs如Claude3-Haiku在开放式提示中正确率趋近于零，凸显模型对色彩空间关系的理解不足。这一发现推动了关于VLMs底层视觉表征机制的探讨，为改进模型的多模态对齐策略、降低幻觉风险提供了理论依据，尤其对医疗影像分析、安全检测等高风险领域的模型可靠性研究具有奠基意义。

衍生相关工作

该数据集启发了多项围绕VLMs色彩感知缺陷的衍生研究。例如，ColorFoil与BlindTest等后续工作沿袭其伪等色挑战思路，进一步拓展至几何图形识别与动态色彩干扰评估；在理论层面，研究者结合Young-Helmholtz三色视觉理论与对立过程理论，分析VLMs色彩表征与人类色觉机制的差异，推动建立更系统的视觉对抗评估框架。此外，数据集揭示的模型尺度与性能非强相关性（如Qwen2-VL系列中72B模型未显著优于2B模型），促使学界转向架构设计与数据质量优化等方向，催生了如字体敏感性分析、少样本学习策略等一系列深入探索。

以上内容由遇见数据集搜集并总结生成