five

Color Fidelity Dataset (CFD)

收藏
arXiv2026-03-12 更新2026-03-13 收录
下载链接:
https://github.com/ZhengyaoFang/CFM
下载链接
链接失效反馈
官方服务:
资源简介:
Color Fidelity Dataset (CFD)是由哈尔滨工业大学(深圳)等机构联合构建的大规模基准数据集,旨在评估文本生成图像(T2I)中的色彩保真度。该数据集包含189,490张高质量真实照片及通过控制分类器无引导尺度生成的113万张合成图像,覆盖12个语义类别,形成有序色彩真实度层级。数据通过自动标注和人工验证确保可靠性,并分为训练集(112万)和测试集(21万)。其核心应用于提升生成图像的色彩自然性,解决现有T2I模型过度饱和的失真问题,为色彩保真度度量(CFM)和优化框架(CFR)提供基础支撑。

The Color Fidelity Dataset (CFD) is a large-scale benchmark dataset jointly constructed by Harbin Institute of Technology (Shenzhen) and other institutions, aiming to evaluate color fidelity in text-to-image (T2I) generation. The dataset contains 189,490 high-quality real photographs and 1.13 million synthetic images generated by controlling the classifier-free guidance scale, covering 12 semantic categories and forming an ordered hierarchy of color realism. Its reliability is ensured via automatic annotation and manual verification, and it is split into a training set (1.12 million samples) and a test set (0.21 million samples). Its core applications include improving the color naturalness of generated images, addressing the over-saturation-induced distortion issues in existing T2I models, and providing foundational support for color fidelity measurement (CFM) and optimization framework (CFR).
提供机构:
哈尔滨工业大学(深圳); 鹏城实验室; 复旦大学·计算机科学与人工智能学院; 北京大学·人工智能研究院
创建时间:
2026-03-12
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Color Fidelity Dataset (CFD)
  • 官方存储库: https://github.com/ZhengyaoFang/CFM
  • 数据集地址: https://huggingface.co/datasets/Nineve/CFD_dataset
  • 关联研究: "Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity"
  • 发表会议: CVPR 2026

数据集用途

该数据集用于支持论文《Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity》的研究,旨在对生成模型的色彩保真度进行基准测试和校准。

相关资源

  • 关联模型: CFM-7B模型权重与配置,可通过 https://huggingface.co/Nineve/CFM_7B 获取。
  • 论文链接: https://arxiv.org/abs/2603.10990

许可信息

本项目采用 Apache License 2.0 许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在文本到图像生成领域,追求视觉真实性始终是核心挑战之一,尤其在色彩保真度方面,现有评估范式往往存在偏好高饱和度图像的偏差。为系统量化这一维度,Color Fidelity Dataset (CFD) 的构建始于从公开数据源收集约18.9万张高质量真实世界图像,涵盖人类、自然场景、城市环境等12个语义类别,并经过图像质量评估筛选以确保色彩自然。随后,利用视觉语言模型为每张图像自动生成文本描述,以此作为提示,通过控制多种主流文本到图像生成模型中的分类器无关引导尺度,为每个真实图像合成六张引导尺度递增的对应生成图像,从而形成色彩真实性逐级下降的图像序列。最终,数据集包含超过130万张图像,并按160k训练组和30k测试组进行划分,为色彩保真度的监督学习与基准测试提供了结构化工序。
特点
该数据集的核心特征在于其针对色彩真实性的精细标注与有序结构。不同于传统评估数据集仅提供图像与标签,CFD通过系统操纵生成模型的引导尺度,构建了从真实摄影到不同程度色彩失真的连续谱系,每个图像组都隐含了色彩保真度的等级顺序。这种设计使得数据集能够支撑对色彩感知细微差别的建模,而非仅关注语义对齐或整体美学。此外,数据集规模庞大、类别多样,覆盖了多种生成模型与场景,确保了评估的广泛性与鲁棒性。其附带的CFD-Human子集包含大量人工标注,为验证评估指标与人类感知的一致性提供了可靠基础。
使用方法
CFD主要服务于色彩保真度的评估与提升研究。在评估方面,研究者可利用其测试集作为基准,衡量不同文本到图像生成模型输出色彩的逼真程度;训练集则用于训练如Color Fidelity Metric (CFM) 等专用评估模型,通过可微分的软排序损失学习色彩真实性的等级预测。在提升方面,基于CFD训练的CFM所提取的跨模态注意力可进一步驱动Color Fidelity Refinement (CFR) 模块,该模块无需训练即可通过空间-时间自适应调制生成过程中的引导尺度,有效抑制过饱和与对比度失衡,从而在保持语义一致性的同时增强生成图像的色彩真实性。整体上,CFD为构建评估、优化色彩保真度的完整框架提供了数据基础。
背景与挑战
背景概述
随着文本到图像生成技术的飞速发展,模型在语义对齐与视觉质量方面取得了显著进步,然而生成图像在色彩真实性方面仍面临严峻挑战。现有评估范式存在固有偏见,倾向于奖励饱和度与对比度夸张的生动图像,导致模型即使在追求写实风格时也产生‘过于鲜艳’的失真效果。为填补这一领域空白,哈尔滨工业大学(深圳)、鹏城实验室、复旦大学及北京大学等机构的研究团队于2026年共同提出了色彩保真度数据集。该数据集旨在为写实风格文本到图像生成中的色彩真实性提供客观评估基准,其核心研究问题聚焦于量化并提升生成图像与真实摄影在色彩分布上的自然一致性,对推动生成式人工智能向更高视觉真实度演进具有重要影响力。
当前挑战
该数据集致力于解决写实风格文本到图像生成中色彩保真度评估的挑战。首要挑战在于克服现有评估指标的固有偏见,这些指标因训练数据偏好鲜艳图像,往往高估过度饱和的生成结果,无法准确衡量色彩的自然真实性。其次,在数据集构建过程中面临多重困难:一是需要大规模收集高质量的真实世界图像并确保其色彩渲染的自然性;二是需设计可控的机制来系统性地生成具有渐进色彩失真的合成图像变体,以建立有序的监督信号;三是获取可靠的人类感知标注以验证模型预测,这要求设计严谨的用户研究并保证标注者间的一致性。
常用场景
经典使用场景
在文本到图像生成领域,追求视觉真实感一直是核心挑战之一。Color Fidelity Dataset (CFD) 的经典使用场景在于为生成模型的颜色保真度提供系统性评估基准。该数据集通过包含超过130万张真实照片及在可控引导尺度下合成的图像变体,构建了有序的颜色真实度等级,使得研究人员能够量化分析生成图像与自然摄影在色彩分布上的偏离程度。这一场景直接支持对扩散模型等主流生成架构在颜色真实性方面的性能测评,为模型优化提供了明确的监督信号。
解决学术问题
CFD 主要解决了文本到图像生成中颜色失真评估缺失的学术问题。现有评估范式如人类评分或偏好训练指标往往偏向高饱和度、高对比度的鲜艳图像,导致模型在生成写实风格图像时产生色彩夸张的偏差。该数据集通过提供大规模、带有颜色真实度顺序标注的数据,使得颜色保真度这一维度得以被客观度量。其意义在于首次建立了颜色真实性的量化标准,推动了生成模型评估从语义对齐和美学吸引力向包括色彩自然度在内的多维度感知质量拓展,影响了后续对生成图像感知真实性的研究范式。
衍生相关工作
围绕 CFD 数据集,衍生出了一系列专注于提升生成图像颜色真实性的经典工作。以 CFM 为核心,研究社区发展出了基于多模态编码器的颜色保真度度量方法,这些方法利用文本-视觉联合表征来捕捉颜色与语义的一致性。进一步地,CFR 机制启发了多种训练免费的引导调制技术,通过空间-时间自适应调整来纠正颜色失真。这些工作共同构成了一个从评估到增强的渐进式框架,推动了文本到图像生成在感知现实主义方向上的深入探索,并为后续结合人类偏好与低级视觉属性的混合评估体系奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作