UnicBench

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/xiaotanhua/UnicBench

下载链接

链接失效反馈

官方服务：

资源简介：

UnicBench是一个全面的图像编辑模型评估基准测试，旨在评估空间和知识驱动的推理能力。该数据集包含1,100个样本，分为4个任务类别（对象编辑、属性编辑、场景编辑和推理编辑）和22个子任务。每个样本包含唯一标识符、任务类别、子任务名称、中英文编辑指令、原始图像、分辨率以及推理点（仅限推理编辑任务）。数据集还提供了详细的评估指标，包括指令遵循、非编辑一致性、视觉质量和推理准确性。

创建时间：

2025-11-28

原始信息汇总

UnicBench 数据集概述

数据集基本信息

数据集名称: UnicBench
发布者: xiaotanhua
许可证: Apache 2.0 License
语言: 英语 (en)、中文 (zh)
数据规模: 1K < n < 10K
任务类别: 图像到图像 (image-to-image)

数据集内容与结构

总样本量: 1,100 个样本
数据分割: 仅包含训练集 (train)
下载大小: 4,462,869,737 字节
数据集大小: 4,467,912,396.6 字节

任务类别与样本分布

UnicBench 包含 4 个主要任务类别，共 22 个子任务：

物体编辑 (Object Editing): 7 个子任务，350 个样本。涉及在图像中添加、移除或修改物体。
属性编辑 (Attribute Editing): 5 个子任务，250 个样本。涉及更改颜色、纹理或材质等属性。
场景编辑 (Scene Editing): 5 个子任务，250 个样本。涉及修改背景、照明或环境元素。
推理编辑 (Reasoning Editing): 5 个子任务，250 个样本。涉及需要空间推理或多步骤操作的复杂任务。

数据字段说明

字段名	数据类型	描述
`key`	string	每个样本的唯一标识符。
`task`	string	主任务类别：`Object Editing`、`Attribute Editing`、`Scene Editing` 或 `Reasoning Editing`。
`subtask`	string	具体的子任务名称（例如：`Background Change`、`Color Alteration`、`Compound Operation Edits`）。
`cn`	string	中文编辑指令。
`en`	string	英文编辑指令。
`image`	Image	待编辑的原始源图像。
`resolution`	list[int]	图像分辨率，格式为 `[宽度, 高度]`。
`reasoning_points`	list[string]	推理编辑任务的验证点列表（仅适用于推理编辑样本，其他任务为 `null`）。

数据集目的与特点

核心目的: 用于评估图像编辑模型的综合基准，特别关注评估模型的空间和知识驱动推理能力。
关键特点: 是 UnicEdit-10M 项目的一部分，引入了带有统一后验证的质量感知数据管理流程，用于富含推理的编辑。
评估粒度: 支持通过新颖的指标对图像编辑模型进行细粒度诊断，包括非编辑一致性 (Non-edit Consistency) 和推理准确率 (Reasoning Accuracy)。

评估指标

UnicBench 使用以下指标进行全面评估：

IF (Instruction Following): 衡量编辑结果遵循给定指令的程度。
NC (Non-edit Consistency): 衡量未编辑区域的一致性。
VQ (Visual Quality): 衡量编辑图像的视觉质量和自然度。
RA (Reasoning Accuracy): 衡量推理准确率（仅用于推理编辑任务）。

引用信息

如果 UnicBench 对您的研究有帮助，请引用以下论文： bibtex @inproceedings{Ye2025UnicEdit10MAD, title={UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits}, author={Keming Ye and Zhipeng Huang and Canmiao Fu and Qingyang Liu and Jiani Cai and Zheqi Lv and Chen Li and Jing Lyu and Zhou Zhao and Shengyu Zhang}, year={2025}, url={https://api.semanticscholar.org/CorpusID:283458518} }

搜集汇总

数据集介绍

构建方式

在图像编辑领域，评估模型性能需要兼顾多样性与复杂性。UnicBench的构建依托于UnicEdit-10M项目，通过质量感知的数据筛选流程与统一的后期验证机制，专门针对推理增强型编辑任务进行精心设计。该数据集涵盖了对象编辑、属性编辑、场景编辑及推理编辑四大类别，细分为22个子任务，共计1100个样本。每个样本均包含原始图像、中英文编辑指令、分辨率信息以及针对推理任务的验证点列表，确保了数据在任务覆盖与质量把控上的系统性。

特点

作为综合性图像编辑基准，UnicBench的显著特点在于其超越传统编辑评估的范畴，深入考察模型的空间与知识驱动推理能力。数据集不仅提供了多语言指令支持，还引入了创新的评估指标，如非编辑区域一致性与推理准确度，实现了对模型性能的细粒度诊断。其结构化的任务分类与详尽的元数据标注，为研究者提供了清晰的任务边界与评估依据，尤其适用于复杂编辑场景下的模型能力剖析。

使用方法

研究者可通过Hugging Face的datasets库便捷加载UnicBench，利用其标准化的数据格式进行模型训练与评估。数据集配套的开源代码库提供了完整的评估流程，支持用户基于指令遵循度、视觉质量、非编辑一致性及推理准确度等多项指标，对图像编辑模型进行系统性评测。通过指定数据路径、编辑模型及视觉语言模型参数，用户可灵活定制评估方案，从而在统一的基准框架下客观比较不同模型的性能表现。

背景与挑战

背景概述

UnicBench作为UnicEdit-10M项目的重要组成部分，于2025年由WeChatCV团队的研究人员提出，旨在构建一个全面评估图像编辑模型性能的基准测试集。该数据集的核心研究聚焦于突破传统图像编辑任务在规模与质量之间的平衡难题，特别强调对模型空间推理与知识驱动编辑能力的精细化评估。通过引入质量感知的数据筛选流程与统一的后验验证机制，UnicBench为图像生成与编辑领域提供了更为严谨的评估框架，推动了复杂编辑任务中模型推理能力的研究进展。

当前挑战

在领域问题层面，UnicBench致力于解决图像编辑中超越基础像素操作的复杂挑战，尤其是需要空间关系理解与多步骤逻辑推理的编辑任务。传统评估指标往往忽视非编辑区域的保持一致性以及编辑指令的精确遵循，该数据集通过设计非编辑一致性与推理准确率等新型度量标准，直面这些核心难点。在构建过程中，研究团队面临的主要挑战在于如何高效收集并验证大规模、高质量且富含推理要素的编辑样本，同时确保跨任务类别与子任务的平衡分布，以支撑对模型能力的细粒度诊断。

常用场景

经典使用场景

在图像编辑领域，UnicBench作为一个综合性基准测试集，其经典使用场景聚焦于评估生成式模型在复杂编辑任务中的性能。该数据集通过涵盖对象编辑、属性编辑、场景编辑及推理编辑四大类别，为研究者提供了系统化的评测框架。模型在遵循指令的同时，需保持非编辑区域的一致性，并展现出对空间关系和知识驱动的推理能力，从而全面检验其编辑质量与泛化性。

解决学术问题

UnicBench致力于解决图像生成研究中长期存在的规模与质量权衡难题，通过引入统一的后验证机制，确保了推理增强编辑数据的可靠性。该数据集不仅量化了模型在基础编辑任务上的表现，更通过非编辑一致性与推理准确度等新颖指标，深入诊断模型在复杂多步操作中的缺陷。这为突破生成模型的可控性与逻辑一致性瓶颈提供了关键实证基础，推动了高质量、可解释图像编辑技术的发展。

衍生相关工作

围绕UnicBench数据集，已衍生出一系列经典研究工作，特别是其所属的UnicEdit-10M项目构建了大规模质量感知的数据策展流程。相关研究进一步探索了基于视觉语言模型的统一验证框架，以增强编辑指令与生成结果的对齐。这些工作不仅扩展了数据集的评估维度，还促进了多模态推理与可控生成技术的交叉融合，为图像编辑领域的基准建设与模型创新奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成