CROCsyn

Name: CROCsyn
Creator: 曼海姆大学、纽伦堡工业大学、马克斯·普朗克计算机科学研究所
Published: 2025-05-16 22:39:44
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/Gringham/CROC/tree/main

下载链接

链接失效反馈

官方服务：

资源简介：

CROCsyn是一个包含超过一百万对比性提示-图像对的大型伪标签数据集，用于评估和训练T2I指标。该数据集由LLMs和扩散模型生成，旨在全面覆盖图像属性，以测试T2I指标的鲁棒性。数据集的生成基于一个包含64个属性和158个实体的分类法，通过自动化的对比鲁棒性检查框架CROC生成。CROCsyn用于训练新的指标CROCScore，并在GenAi-Bench上取得了最佳的开源指标性能。

CROCsyn is a large pseudo-labeled dataset containing over one million comparative prompt-image pairs, intended for the evaluation and training of T2I metrics. Generated by LLMs and diffusion models, this dataset comprehensively covers diverse image attributes to test the robustness of T2I metrics. It is constructed based on a taxonomy encompassing 64 attributes and 158 entities, and generated through the automated comparative robustness checking framework named CROC. CROCsyn is utilized to train the novel metric CROCScore, which achieves state-of-the-art open-source metric performance on GenAi-Bench.

提供机构：

曼海姆大学、纽伦堡工业大学、马克斯·普朗克计算机科学研究所

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

CROCsyn数据集的构建采用了自动化对比鲁棒性检查框架CROC，通过系统化合成涵盖广泛图像属性的对比测试案例来量化评估指标的鲁棒性。具体而言，该数据集包含超过一百万个伪标记的对比性提示-图像对，这些对通过大型语言模型（LLM）生成文本提示，并利用扩散模型生成相应图像。为确保数据质量，每个原始提示和对比提示生成多张图像，并通过聚合评分机制减少生成模型误差的影响。此外，针对难以生成的类别，额外构建了人类监督的基准数据集CROChum以补充验证。

使用方法

该数据集支持两种主要应用场景：首先可作为评估基准，通过对比案例系统检验不同T2I度量指标在特定属性上的性能差异，例如分析指标对否定语句或身体部位识别的处理能力。其次可作为训练资源，如用于训练新型评估指标CROCScore——实验表明基于该数据集训练的指标在开放源码方法中达到最优性能。使用时需注意评估方向的选择（文本/图像基准、正向/逆向）以及多图像聚合策略，对于关键场景建议结合人类监督数据集CROChum进行交叉验证。

背景与挑战

背景概述

CROCsyn数据集由Christoph Leiter等研究人员于2025年提出，旨在解决文本到图像（T2I）生成任务中评估指标的鲁棒性问题。该数据集由德国曼海姆大学、纽伦堡工业大学和马克斯·普朗克信息学研究所联合开发，通过生成超过一百万对对比性提示-图像对，为T2I评估指标的细粒度比较提供了基础。CROCsyn的核心研究问题是通过自动化对比鲁棒性检查（CROC）框架，量化评估指标在不同图像属性上的表现，从而弥补传统人工评估成本高、覆盖范围有限的缺陷。该数据集对生成式AI领域具有重要意义，尤其在推动自动评估指标的发展和优化方面发挥了关键作用。

当前挑战

CROCsyn数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，T2I评估指标需要处理生成任务中固有的主观性，即同一文本提示可能对应多个合理的图像输出，这使得自动评估指标的鲁棒性成为核心难题。例如，现有指标在处理否定提示或身体部位识别等复杂场景时表现不佳。在构建过程方面，数据集的创建依赖于文本和图像的生成模型，而生成模型的不完美可能导致伪标签噪声。此外，为确保对比样本的有效性，需设计复杂的提示生成策略和图像过滤机制，尤其是在处理难以生成的类别（如空间关系和否定）时，仍需人工干预以验证数据质量。

常用场景

经典使用场景

CROCsyn数据集在文本到图像（T2I）生成任务中，主要用于评估和比较不同T2I评估指标的鲁棒性。通过生成超过一百万对对比性提示-图像对，该数据集能够系统地测试和量化各种指标在不同图像属性上的表现。研究人员可以利用这些数据对现有指标进行细粒度分析，识别其在特定属性（如颜色、形状、空间关系等）上的优势和不足。

解决学术问题

CROCsyn数据集解决了T2I评估领域中的核心问题，即缺乏高效、自动化的元评估方法。传统的人类评估成本高昂且耗时，而该数据集通过伪标签生成技术，大幅降低了评估成本。此外，其对比性测试案例设计能够精确揭示评估指标在特定属性上的失效情况，例如许多指标在处理否定提示或身体部位识别时表现不佳。这一成果为改进T2I指标提供了数据基础和理论支持。

实际应用

在实际应用中，CROCsyn数据集被用于训练新型评估指标（如CROCScore），该指标在开源方法中达到了最先进的性能水平。此外，该数据集还可用于工业场景中的T2I系统优化，例如生成图像的预筛选、模型微调的监督以及输出结果的重新排序。其大规模和多样性使其成为评估和改进T2I生成质量的重要工具。

数据集最近研究