VIOLIN
收藏VIOLIN 数据集概述
数据集基本信息
- 数据集名称: VIOLIN (Visual Instruction-based Color Evaluation / VIsual Obedience Level-4 EvaluatIoN)
- 发布者: Perkzi
- 许可协议: CC-BY-4.0
- 任务类别: 文本到图像生成
- 支持语言: 英语 (en)、中文 (zh)、法语 (fr)
- 标签: 视觉、颜色、评估、诊断、AI-Obedience
- 数据规模: 10K < n < 100K (具体超过 42,000 个文本-图像对)
- 配置文件: 默认配置 (
default),数据文件为violin-test.parquet,对应测试集 (testsplit)。
数据集简介与目的
VIOLIN 是一个诊断性基准数据集,旨在评估文本到图像生成模型的 第四级指令遵循能力。该数据集针对当前先进模型在生成复杂语义场景(如“赛博朋克城市景观”)的同时,却难以完成最基本、最确定性的任务(如生成一个完全纯净、无纹理的纯色图像)的“简单性悖论”现象,提供了一个严谨的评估框架。
核心科学洞察
研究揭示了当前生成式人工智能面临的两个主要障碍:
- 美学惯性: 模型倾向于优先考虑视觉丰富性和纹理,而非严格遵循指令,即使在明确要求“纯色”或“无纹理”时也是如此。
- 语义引力: 当指令与常见的视觉知识一致时,模型能更好地遵循;但当上下文是随机或冲突的时,模型则会失败。
数据集结构
数据集包含 6 种变体,共计超过 42,000 个文本-图像对:
| 变体 | 描述 | 评估重点 |
|---|---|---|
| 变体 1 | 单色块 | 基本像素级精度 (ISCC-NBS) |
| 变体 2 | 双区块分割 | 空间布局与垂直/水平分割 |
| 变体 3 | 四象限分割 | 复杂的空间推理与对比度 |
| 变体 4 | 模糊颜色 | 有界约束与灵活性 |
| 变体 5 | 多语言 | 跨英语、中文和法语的鲁棒性 |
| 变体 6 | 颜色空间 | 跨格式理解 (Hex, RGB, HSL) |
评估指标
采用双指标方法来评估“最低可行服从度”:
- 颜色精度: 测量生成像素与真实值之间的 ΔE (CIEDE2000) 或欧几里得距离。
- 颜色纯度: 使用基于方差的分析方法,评估图像中是否存在伪影、渐变或非预期的纹理。
使用方法
可通过 Hugging Face datasets 库直接加载数据集:
python
from datasets import load_dataset
dataset = load_dataset("Perkzi/VIOLIN", split="test")
print(dataset[0])
引用信息
如果使用本数据集或相关研究,请考虑引用以下论文: bibtex @article{li2026exploring, title={Exploring the AI Obedience: Why is Generating a Pure Color Image Harder than CyberPunk?}, author={Li, Hongyu and Liu, Kuan and Chen, Yuan and Hu, Juntao and Lu, Huimin and Chen, Guanjie and Liu, Xue and Lu, Guangming and Huang, Hong}, journal={arXiv preprint arXiv:2603.00166}, year={2026} }
相关资源链接
- GitHub 仓库: https://github.com/AI-Obedience/Violin
- arXiv 论文: https://arxiv.org/abs/2603.00166
- 项目主页: https://ai-obedience.github.io




