Human Preference-Aligned Concept Customization Benchmark (CC-AlignBench)

Name: Human Preference-Aligned Concept Customization Benchmark (CC-AlignBench)
Creator: 庆应大学, 英伟达
Published: 2025-09-03 23:02:40
License: 暂无描述

arXiv2025-09-03 更新2025-09-05 收录

下载链接：

https://github.com/ReinaIshikawa/D-GPTScore

下载链接

链接失效反馈

官方服务：

资源简介：

CC-AlignBench是一个包含单概念和多概念任务的综合评价数据集，旨在通过分解评估标准并使用多模态大型语言模型(MLLM)进行逐方面评估，从而更好地与人类偏好保持一致。数据集包含980个文本提示，涵盖了三种不同的人类动作水平（单个动作、两个独立动作和两个相互动作），以及五种不同的条件类型（动作、布局、表情和周围环境的五种不同组合）。数据集通过评估人类动作水平或条件类型，使模型的概念定制能力得到系统评估。

CC-AlignBench is a comprehensive evaluation dataset covering both single-concept and multi-concept tasks. It is designed to achieve better alignment with human preferences by decomposing evaluation criteria and conducting aspect-wise assessment using multimodal large language models (MLLMs). The dataset comprises 980 text prompts, covering three distinct human action levels: single action, two independent actions, and two interactive actions, as well as five different condition types, which are five distinct combinations of action, layout, expression, and surrounding environment. By evaluating the human action levels or condition types, the dataset enables systematic assessment of the model's concept customization capabilities.

提供机构：

庆应大学, 英伟达

创建时间：

2025-09-03

原始信息汇总

D-GPTScore 数据集概述

数据集基本信息

数据集名称：D-GPTScore
官方实现：Human Preference-Aligned Concept Customization Benchmark via Decomposed Evaluation
相关会议：ICCVW2025

数据集结构

图像数据：包含20张男性图像（位于CC-AlignBench/man_1）和20张女性图像（位于CC-AlignBench/woman_1）
文本提示：存储在CC-AlignBench/cc-alignbench-data.csv文件中

数据加载方式

加载脚本：data_loader/prompt_loader.py
支持参数：
- csv_path：CSV文件路径
- man_token：男性标识符
- woman_token：女性标识符
- debug：调试模式
- index_list：索引列表
- prompt_type：提示类型（simple/action+layout/action+expression/action+background/all）
- mode：难度模式（easy/medium/hard）

评估功能

单图像评估

评估脚本：evaluation/metrics/eval_end-to-end.py
必需参数：
- generated_img_path：生成图像路径
- concept_path：概念图像路径（一个或两个）
- prompt：生成图像时使用的提示

模型基准评估

评估流程：
1. 使用CC-AlignBench生成图像并保存
2. 执行采样脚本
3. 获取D-GPTScore评估结果
评估脚本：evaluation/analysis/benchmark_raderchart.py
结果输出：./evaluation/results/output/wo_r_GPT_ours_<method_name>_output.csv

支持的评估方法

CustomDiffusion
OMG(LoRA)
OMG(InstantID)
FastComposer
Mix-of-Show
DreamBooth

结果分析

分析脚本：evaluation/analysis/corr_02_ours_ave.py
结果保存位置：evaluation/results/GPT_ours_ave/

搜集汇总

数据集介绍

构建方式

在概念定制评估领域，CC-AlignBench数据集的构建采用了系统化的方法。首先，基于196个基础提示词，通过组合动作、布局、表情和场景四个元素，生成五种变体，总计980个文本提示。参考图像则利用生成式AI创建，包含20张男性和20张女性全身图像，涵盖不同视角和姿态，以确保人物外观一致性并避免肖像权问题。数据集按难度分为三个层级：简单级描述单人动作，中级涉及两人独立动作，困难级则聚焦两人互动行为，从而支持从基础到复杂的多维度评估。

使用方法

该数据集的使用需结合文本提示和参考图像，输入至概念定制模型生成图像，再通过D-GPTScore指标进行评估。评估过程分为两个阶段：首先利用多模态大语言模型对18个预定义方面（如对象存在性、布局保真度、交互一致性等）进行独立评分，随后聚合各维度分数得到综合结果。用户可按动作难度或条件类型分层测试模型性能，系统化分析模型在保真度、质量及交互表现上的优劣，从而推动概念定制研究的精准优化。

背景与挑战

背景概述

CC-AlignBench由庆应义塾大学与NVIDIA研究团队于2025年联合发布，专注于概念定制化任务的评估基准构建。该数据集针对扩散模型在个性化概念生成中的核心问题——即如何通过少量参考图像和文本提示生成符合人类偏好的多概念图像。其创新性在于引入了基于动作复杂度的三级评估体系（单人动作、双人独立动作、双人交互动作），并通过分解式评估框架D-GPTScore实现了与人类评价标准的高度对齐，显著推动了生成式AI在细粒度视觉控制领域的研究进程。

当前挑战

该数据集主要解决概念定制化任务中多概念交互一致性与生成图像忠实度的评估挑战，具体包括：1）领域问题层面需克服传统指标对复杂动作、多主体空间关系及跨概念交互的评估盲区；2）构建过程中面临参考图像采集的伦理约束，需通过生成式AI合成全角度人体图像以规避肖像权问题，同时需设计覆盖5种条件类型（动作、布局、表情、环境及其组合）的980组文本提示，确保评估维度的系统性与可解释性。

常用场景

经典使用场景

在概念定制研究领域，CC-AlignBench作为评估基准被广泛应用于测试生成模型在复杂人物交互场景中的表现。该数据集通过包含单人多动作、双人独立动作及双人互动动作的三级难度设计，使研究者能够系统评估模型在保持人物特征一致性与动作自然性方面的能力。其经典使用场景包括对生成图像进行细粒度质量评估，特别是在人物姿态、表情交互和场景协调性等关键维度上的精确度量。

解决学术问题

该数据集有效解决了概念定制领域长期存在的评估指标与人类偏好不一致的学术难题。通过引入分解式评估框架，它将传统单一评分转化为18个细粒度维度的综合评估，涵盖对象存在性、布局保真度、多概念交互一致性等关键方面。这种结构化评估方式显著提升了生成图像质量评估的准确性与可解释性，为扩散模型的概念定制能力提供了标准化度量体系，推动了生成模型与人类审美认知的对齐研究。

实际应用

在实际应用层面，CC-AlignBench为AI内容创作产业提供了可靠的评估工具。其支持的多人交互场景评估能力可直接应用于影视预可视化、虚拟人像生成和交互式游戏设计等领域。通过量化生成图像在服装属性保持、动作表达准确性和环境协调性等方面的表现，该数据集帮助开发者在产品化过程中优化模型输出质量，确保生成内容符合实际应用场景中对人物身份一致性和动作自然性的严格要求。

数据集最近研究