MM-Hallu/ColorBlindnessEval

Name: MM-Hallu/ColorBlindnessEval
Creator: MM-Hallu
Published: 2026-04-30 05:00:59
License: 暂无描述

Hugging Face2026-04-30 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/MM-Hallu/ColorBlindnessEval

下载链接

链接失效反馈

官方服务：

资源简介：

ColorBlindnessEval数据集包含500个类似石原氏（Ishihara）的测试图像，用于测试视觉语言模型（VLM）在视觉对抗场景下的鲁棒性。这些图像中隐藏了0-99的数字，使用了不同的字体（Arial/DejaVuSans）和颜色配置。数据集的特征包括图像、文件名、隐藏的数字、使用的字体和颜色配置。

ColorBlindnessEval contains 500 Ishihara-like images testing VLM robustness on visually adversarial scenarios. Numbers 0-99 rendered in different fonts (Arial/DejaVuSans) and color configurations. Fields include image, filename, hidden number, font used, and color configuration variant.

提供机构：

MM-Hallu

搜集汇总

数据集介绍

构建方式

ColorBlindnessEval数据集专门为评估视觉语言模型在视觉对抗性场景下的鲁棒性而构建，其设计灵感源自色盲检测中广泛使用的石原氏色盲测试图。数据集的构建过程包括生成500张模拟石原氏测试风格的图像，每张图像中隐藏着从0到99的随机数字。这些数字采用Arial和DejaVuSans两种字体进行渲染，并搭配多种色彩配置方案，以模拟不同程度的颜色辨识挑战。所有图像以Parquet格式存储，便于高效加载和处理。

特点

该数据集的核心特点在于其针对视觉对抗性场景的设计，通过模拟石原氏色盲测试图的方式，考察视觉语言模型在颜色辨识任务中的表现。数据集包含500张图像，覆盖0至99的数字，并结合两种字体和多种色彩配置，为模型提供多样化的测试样本。这种设计不仅能够评估模型对颜色变化的敏感性，还能检验其在视觉干扰条件下的泛化能力。数据集规模虽小（不足1000样本），但针对性强，适合作为标准视觉语言模型在颜色相关任务上的评测基准。

使用方法

ColorBlindnessEval数据集的使用方式简便直接，适用于图像分类任务的模型评估。用户可通过HuggingFace Datasets库加载数据，配置文件名为'default'，默认使用测试集划分。数据集中的字段包括图像、文件名、隐藏数字、字体和色彩配置，用户可基于图像字段进行模型推理，并通过数字字段验证分类准确性。该数据集的主要用途是评测视觉语言模型在颜色辨识和视觉对抗样本上的鲁棒性，特别适用于研究模型在面对颜色混淆场景时的表现差异。

背景与挑战

背景概述

ColorBlindnessEval数据集诞生于视觉语言模型（VLM）鲁棒性评估的前沿需求，由研究机构Apply-U于2024年构建。该数据集的核心研究问题在于，当模型面对模拟人类色盲视觉的对抗性图像时，其分类与认知能力是否依然可靠。通过生成500幅基于石原色盲测试图原理的合成图像，内含隐藏数字（0-99），并变换字体与颜色配置，该数据集为衡量VLM在颜色感知障碍场景下的表现提供了标准化基准。其影响力体现在推动多模态模型在视觉对抗样本下的安全性评估，填补了现有数据集在色彩感知脆弱性测试方面的空白。

当前挑战

ColorBlindnessEval数据集旨在应对视觉语言模型在颜色依赖任务中的根本性缺陷，即当颜色信息被扭曲或混淆时，模型往往丧失对隐含模式的识别能力。在构建过程中，主要挑战源于如何精确模拟色盲视觉的物理特性，以确保生成图像既能被人类色觉正常者分辨，又能对模型构成有效对抗。此外，数字呈现的多样性（不同字体与颜色配置组合）要求数据集在有限样本量内覆盖足够丰富的变异，同时避免引入额外的语义歧义，这对合成参数的优化与质量验证提出了严苛的要求。

常用场景

经典使用场景

ColorBlindnessEval数据集以石原氏色盲测试图为灵感，构建了500幅模拟色觉障碍视觉场景的图像，旨在评估视觉语言模型在颜色感知与对抗性视觉环境下的鲁棒性。每幅图像均嵌入0至99之间的数字，并采用Arial或DejaVuSans字体以及多种颜色配置方案。该数据集广泛应用于多模态大模型的视觉对抗性测试，特别是在颜色敏感场景中，检验模型对隐藏数字识别与理解的能力。其设计逻辑模拟了人类视觉在色觉缺陷条件下的挑战，成为衡量模型是否具备类人视觉鲁棒性的重要标尺。通过系统性地变换颜色组合，研究者能够揭示模型在色彩信息缺失或错乱时的决策边界，从而推动更稳健的视觉感知模型的发展。

衍生相关工作

ColorBlindnessEval的出现催生了一系列围绕颜色对抗性及视觉鲁棒性的后续研究。一方面，研究者基于该数据集提出了针对颜色特征的正则化方法与数据增强策略，旨在提升模型在色彩混乱或缺失条件下的泛化能力。另一方面，该数据集启发了多模态基准的扩展，推动了面向色觉障碍群体的人机交互系统设计改进。此外，部分经典工作将其与Stone等提出的颜色不变性编码器及对抗性训练框架相结合，探索了更通用的视觉表征学习范式。这些衍生工作不仅在计算机视觉领域内丰富了鲁棒性研究的理论体系，也促使工业界重新审视和优化产品在实际使用中的色彩适应性，从而拓展了视觉人工智能的社会影响力。

数据集最近研究