UniREditBench and UniREdit-Data-100K

github2025-11-02 更新2025-11-03 收录

下载链接：

https://github.com/Maplebb/UniREditBench

下载链接

链接失效反馈

官方服务：

资源简介：

UniREditBench是一个统一的基于推理的图像编辑评估基准，覆盖更广泛的评估维度和鲁棒的评估流程。它包含2,700个高质量样本，组织成8个主要推理维度和18个子类别，涵盖真实世界和游戏世界的图像编辑任务。同时构建了UniREdit-Data-100K，一个大规模合成数据集，带有高质量的思维链推理注释。

UniREditBench is a unified reasoning-based image editing evaluation benchmark that encompasses a broader set of evaluation dimensions and a robust evaluation workflow. It comprises 2,700 high-quality samples, organized into 8 primary reasoning dimensions and 18 subcategories, covering both real-world and game-world image editing tasks. Additionally, a large-scale synthetic dataset named UniREdit-Data-100K has been constructed, which is equipped with high-quality chain-of-thought reasoning annotations.

创建时间：

2025-11-01

原始信息汇总

UniREditBench：基于统一推理的图像编辑基准

数据集概述

UniREditBench是一个用于基于推理的图像编辑评估的统一基准，具有更广泛的评估维度覆盖和稳健的评估流程。

核心特点

评估维度覆盖

包含2,700个高质量样本
组织为8个主要推理维度和18个子类别
涵盖现实世界和游戏世界图像编辑任务

评估方法

双参考评估设计：每个样本评估同时包含文本参考和真实图像参考
支持视觉语言模型在多模态参考下进行直接和细粒度比较
实现更可靠的评估结果

技术成果

发布技术报告和项目页面
开发了统一的推理式图像编辑评估基准
构建了大规模合成数据集
训练了改进的评估模型

可用资源

论文：https://github.com/Maplebb/UniREditBench/blob/main/UniREditBench-Technical_Report.pdf
项目页面：https://maplebb.github.io/UniREditBench/
Hugging Face数据集：https://huggingface.co/datasets/maplebb/UniREditBench
相关数据集：https://huggingface.co/datasets/maplebb/UniREdit-Data-100K
相关模型：https://huggingface.co/maplebb/UniREdit-Bagel

搜集汇总

数据集介绍

构建方式

在图像编辑评估领域，UniREditBench通过自动化多场景数据合成流程构建而成，该流程系统性地生成涵盖真实世界与虚拟游戏场景的多样化样本。数据集包含2700个高质量样本，划分为8个核心推理维度与18个子类别，每个样本均配备详尽的思维链推理标注，确保数据结构的严谨性与逻辑完整性。

特点

该数据集以双参考评估机制为核心特征，为每个样本同时提供文本描述与真实图像参考，形成多模态对照体系。这种设计使视觉语言模型能够在文本与视觉层面进行细粒度对比，显著提升评估结果的可靠性。其广泛覆盖的推理维度与场景类型，为图像编辑任务的全面评估奠定了坚实基础。

使用方法

研究人员可通过Hugging Face平台直接访问UniREditBench数据集，将其纳入图像编辑模型的评估流程。使用时应结合提供的文本与图像双重参考，通过视觉语言模型进行多维度对比分析。该数据集支持对模型在领域内及分布外场景下的性能验证，其标准化评估流程可有效量化模型在复杂推理任务中的表现。

背景与挑战

背景概述

在人工智能图像编辑技术快速发展的背景下，上海创新研究院团队于2025年发布了UniREditBench基准数据集及其配套的UniREdit-Data-100K合成数据集。该工作聚焦于推理驱动的图像编辑评估领域，旨在构建覆盖多维度推理能力的统一评估框架。通过整合真实世界与虚拟游戏场景的编辑任务，数据集系统性地定义了8个核心推理维度与18个子类别，为图像生成模型的认知能力评估提供了标准化范本。其创新性体现在引入双参考评估机制，结合文本与图像双重基准，显著提升了视觉语言模型评估的可靠性与细粒度分析能力，对推动生成式人工智能的可解释性研究具有重要价值。

当前挑战

该数据集致力于解决复杂场景下图像编辑任务的推理一致性评估难题，包括多模态指令理解、语义逻辑保持与视觉属性精确修改等核心挑战。在构建过程中面临高质量链式思维标注数据的稀缺性，需通过自动化合成流程平衡数据规模与标注精度。同时，双参考评估框架的设计需克服文本-图像模态对齐的技术障碍，确保评估标准在不同场景下的鲁棒性。这些挑战直接关联到生成模型在开放域环境中的实际应用可靠性，对评估方法的跨领域泛化能力提出了更高要求。

常用场景

经典使用场景

在基于推理的图像编辑研究领域，UniREditBench作为统一评估基准，其经典应用场景聚焦于多维度推理能力的系统性验证。该数据集通过涵盖真实世界与虚拟游戏场景的编辑任务，构建了包含8个主要推理维度的评估框架，研究者可借助其双参考评估机制，对图像编辑模型在语义理解、空间关系、风格转换等复杂推理任务中的表现进行标准化测试。

解决学术问题

该数据集有效解决了图像编辑领域缺乏统一评估标准的学术困境。通过构建包含文本参考与真实图像参考的双重评估体系，显著提升了视觉语言模型在跨模态对比评估中的可靠性。其大规模合成数据与高质量思维链标注，为研究社区提供了探索复杂推理任务的可解释性基础，推动了图像编辑从低级像素操作向高级语义推理的范式转变。

衍生相关工作

该数据集催生了系列创新性研究，其中基于合成数据管线的构建方法启发了多模态数据增强技术的新方向。其双参考评估机制被后续研究拓展为多模态对齐评估的标准范式，而思维链标注体系则推动了可解释图像编辑模型的发展。相关技术路线已衍生出多个专注于复杂推理任务的图像生成模型，形成了完整的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集