Color Vision Test Dataset

Name: Color Vision Test Dataset
Creator: 中国科学院大学, 中国科学院, 浙江实验室, 浙江大学
Published: 2025-07-15 18:03:06
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://anonymous.4open.science/r/color-vision-test-dataset-3BCD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Color Vision Test Dataset，由中国科学院大学、中国科学院、浙江实验室、浙江大学的研究人员创建，旨在评估大型视觉语言模型在颜色视觉方面的能力。数据集包含了5450个颜色视觉测试图像，涵盖了数字、动物、形状、字母或字符、物体五大类，并分为容易和困难两个任务级别。数据集的创建过程严格，采用了Daltonlens工具包生成图像，并通过Coblis工具评估图像质量。数据集可用于评估和比较不同大型视觉语言模型在颜色视觉测试中的有效性，为安全敏感领域中的应用提供了重要依据。

The dataset, named Color Vision Test Dataset, was created by researchers from the University of Chinese Academy of Sciences, Chinese Academy of Sciences, Zhejiang Lab, and Zhejiang University. It is designed to evaluate the color vision capabilities of large vision-language models. The dataset contains 5,450 color vision test images covering five categories: numbers, animals, shapes, letters/characters, and objects, and is divided into two task difficulty levels: easy and hard. The dataset was rigorously constructed, with images generated using the Daltonlens toolkit and image quality assessed via the Coblis tool. This dataset can be used to evaluate and compare the effectiveness of different large vision-language models in color vision tests, providing an important basis for applications in safety-sensitive fields.

提供机构：

中国科学院大学, 中国科学院, 浙江实验室, 浙江大学

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

在视觉语言模型日益普及的背景下，准确评估其色彩感知能力显得尤为重要。Color Vision Test Dataset的构建采用了系统化的方法，通过Daltonlens工具包生成多样化的色觉测试图像，涵盖数字、动物、字母及汉字、物体和形状五大类别。为确保数据的多样性和公平性，研究团队采用红、绿、蓝、黄及其不同饱和度的中间色作为主要色彩组合，并通过专家评估和Inter-rater Agreement (IRA)验证数据质量。最终数据集包含5450张图像，分为简单任务（CVTE）和困难任务（CVTH），以全面评估模型在不同难度下的表现。

特点

Color Vision Test Dataset以其广泛的类别覆盖和严谨的质量控制脱颖而出。数据集包含五大类别（数字、动物、字母及汉字、物体和形状），每种类别均采用多样化的色彩组合，确保测试场景的全面性。通过Coblis工具评估图像质量，并结合专家评分和IRA验证，保证了数据的可靠性和一致性。此外，数据集的统计特性显示，数字类别占比最高（49.2%），其余类别分布均衡，为模型评估提供了丰富的测试样本。这种多层次、多角度的设计使得该数据集成为评估视觉语言模型色彩感知能力的理想选择。

使用方法

Color Vision Test Dataset的使用方法设计科学且灵活，适用于不同研究需求。评估过程分为两个任务：CVTE（提供类别提示）和CVTH（无类别提示），通过输入测试图像和提示，模型生成响应并由GPT-4或人工评估其准确性。研究团队采用了Meteor评分、模型评分和人工评分三种评估指标，确保结果全面可靠。此外，数据集支持LoRA微调等改进实验，显著提升模型性能。用户可通过匿名GitHub访问部分数据，灵活应用于模型训练、评估及改进研究。

背景与挑战

背景概述

Color Vision Test Dataset是由中国科学院大学和浙江实验室的研究团队于2025年提出的，旨在评估大规模视觉语言模型（LVLMs）的颜色视觉能力。该数据集包含5450张经过人工验证的色觉测试图像，覆盖数字、动物、形状、字母或字符、物体五大类别，并设计了易（CVTE）和难（CVTH）两种任务难度。研究团队通过Daltonlens工具生成多样化的色觉测试图，采用GPT-4作为评估器，结合人工评分验证模型性能。该工作首次系统性地填补了LVLMs在颜色感知能力评估领域的空白，为自动驾驶、医药研究等安全敏感场景的模型可靠性提供了重要基准。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，传统色觉测试方法（如石原测验）难以直接迁移至LVLMs评估，需解决模型对三原色及中间色的量化判别、色觉缺陷程度表征等新问题；构建过程中，需克服测试图像的颜色饱和度控制、多类别平衡（如数字类占比49.2%）、以及防止模型在训练数据泄露等挑战。实验表明，即使最优模型JanusPro-7B在CVTH任务中准确率仅17.76%，暴露出LVLMs在无类别提示时对复合颜色图案的识别缺陷，其中完全识别错误占比高达37.5%。

常用场景

经典使用场景

Color Vision Test Dataset 在评估大型视觉语言模型（LVLMs）的颜色感知能力方面具有经典应用场景。通过涵盖数字、动物、形状、字母及汉字、物体等多个类别，该数据集能够全面测试模型在不同颜色组合和饱和度下的识别能力。特别是在CVTE（简单任务）和CVTH（困难任务）两种设置下，研究者可以系统评估模型在有无类别提示情况下的表现差异，从而揭示模型在颜色视觉任务中的潜在优势和局限。

衍生相关工作

该数据集推动了多模态模型评估范式的创新，衍生出如《ColorFoil》等针对色盲模拟的研究，以及《MVP-Bench》中新增的低级视觉感知评估模块。其任务设计思路还被扩展至其他感知能力测试（如纹理识别），并启发了后续研究对模型微调策略（如动态提示工程）的探索。此外，基于该数据集错误分析的改进方法，如分层微调技术，已成为提升LVLMs颜色感知性能的典型方案。

数据集最近研究