UnicEdit-10M

github2025-12-06 更新2025-12-13 收录

下载链接：

https://github.com/WeChatCV/UnicBench

下载链接

链接失效反馈

官方服务：

资源简介：

UnicEdit-10M是一个10M规模的高质量图像编辑数据集，涵盖了多样化的基础和复杂编辑任务。通过轻量级的数据管道和统一的后期验证阶段，确保了数据的高质量。数据集旨在解决现有数据构建方法在规模和质量之间的权衡问题。

UnicEdit-10M is a 10M-scale high-quality image editing dataset covering diverse basic and complex editing tasks. Its high data quality is ensured via a lightweight data pipeline and a unified post-processing validation stage. This dataset is designed to address the trade-off between scale and quality in existing data construction methods.

创建时间：

2025-12-01

原始信息汇总

UnicEdit-10M 与 UnicBench 数据集概述

数据集基本信息

数据集名称: UnicEdit-10M / UnicBench
发布状态: 基准测试代码与数据已发布，UnicEdit-10M数据集待发布。
访问地址: https://huggingface.co/datasets/xiaotanhua/UnicBench
相关论文: http://arxiv.org/abs/2512.02790
项目主页: https://hongsexiaotanhua.github.io/UnicEdit-10M/

核心贡献

UnicEdit-10M: 一个通过统一后验证流程构建的、规模达1000万的高质量图像编辑数据集，涵盖多样化的基础与复杂编辑任务。
Qwen-Verify: 一个用于高效失败检测和指令重描述的70亿参数双任务专家模型。
UnicBench: 一个包含新颖评估指标的综合基准测试，用于细粒度诊断图像编辑模型。

数据集详情

UnicEdit-10M

规模: 1000万样本。
特点: 通过轻量级数据流水线构建，采用端到端模型和统一的后验证阶段进行质量控制，旨在解决现有数据构建方法在规模与质量之间的权衡问题。

UnicBench 基准测试

样本数量: 1100个样本。
任务类别与样本分布:
- 物体编辑: 7个子任务，350个样本。
- 属性编辑: 5个子任务，250个样本。
- 场景编辑: 5个子任务，250个样本。
- 推理编辑: 5个子任务，250个样本。
评估指标:
- IF: 衡量编辑结果遵循给定指令的程度。
- NC: 衡量未编辑区域的保持一致性。
- VQ: 衡量编辑后图像的视觉质量和自然度。
- RA: 衡量推理准确性（仅用于推理编辑任务）。

数据获取与使用

加载数据集

可通过Hugging Face datasets库直接加载基准测试数据： python from datasets import load_dataset ds = load_dataset("xiaotanhua/UnicBench")

使用流程

生成编辑图像: 使用图像编辑模型生成编辑后的图像，并按照指定目录结构保存。
运行评估: 使用提供的eval_pipeline.py脚本评估编辑图像并计算最终得分。支持从本地JSONL文件或Hugging Face数据集加载数据。
计算统计量: 使用calculate_scores.py脚本从评估结果中聚合统计分数。

项目结构

UnicBench/ ├── assets/ # README相关图片 ├── data/ │ ├── prompts.py # 视觉语言模型评估提示词 │ └── test_data.jsonl # 基准测试数据 ├── eval/ │ ├── eval_pipeline.py # 主评估流水线 │ └── calculate_scores.py # 分数统计工具 └── inference/ # 参考推理脚本

许可证

本项目基于 Apache 2.0 许可证发布。

搜集汇总

数据集介绍

构建方式

在图像编辑领域，高质量训练数据的稀缺性长期制约着开源模型的发展。UnicEdit-10M的构建旨在突破规模与质量之间的传统权衡，其采用了一种轻量级的数据生成流程。该流程摒弃了复杂的多工具链，转而使用端到端模型进行初步编辑生成，并引入统一的后验证阶段以实施规模化质量控制。为确保数据可靠性，研究团队专门训练了一个名为Qwen-Verify的70亿参数双任务专家模型，该模型能够高效执行失败检测与指令重述，从而在自动化流程中有效抑制错误传播与噪声积累。这一创新方法最终产出了涵盖多样基础与复杂编辑任务的千万规模数据集。

特点

UnicEdit-10M数据集的核心特征在于其规模与质量的协同提升，以及任务覆盖的广度与深度。该数据集包含高达一千万个样本，突破了以往高质量数据集难以大规模获取的瓶颈。其内容不仅涵盖了对象、属性和场景编辑等基础任务，更创新性地纳入了需要空间与知识驱动的推理编辑任务，从而对模型的深层理解与逻辑能力提出了更高要求。为支持细粒度模型诊断，与其配套的UnicBench基准测试引入了非编辑区域一致性与推理准确性等新颖评估指标，能够精准揭示模型在不同编辑行为上的具体弱点，为研究方向提供了清晰的指引。

使用方法

该数据集及其基准测试为图像编辑模型的训练与评估提供了系统化框架。研究人员可通过Hugging Face平台直接加载数据集用于模型训练。对于性能评估，需首先使用目标编辑模型根据基准测试提供的指令生成编辑后的图像，并按照规定的目录结构保存结果。随后，运行评估流水线脚本，该脚本支持从本地文件或云端加载测试数据，并利用指定的大型视觉语言模型对生成图像进行多维度自动化评分，包括指令遵循度、视觉质量、非编辑区域一致性及推理准确性。评估完成后，可通过统计计算脚本快速聚合各任务与语言版本的综合得分，便于进行模型间的横向对比与深入分析。

背景与挑战

背景概述

在人工智能领域，多模态图像编辑技术的快速发展，尤其是以GPT-4o、Nano Banana和Seedream 4.0为代表的先进模型，正推动着该领域向更高层次的推理与创作能力迈进。然而，开源模型与闭源模型之间的性能鸿沟日益显著，其根源在于缺乏大规模、高质量的训练数据以及能够全面诊断模型在多样化编辑行为中弱点的基准测试。为此，研究团队于2025年提出了UnicEdit-10M数据集，旨在通过创新的数据构建流程，打破传统数据集中规模与质量之间的权衡困境。该数据集由轻量级端到端模型与统一的后验证阶段构成，生成了涵盖基础与复杂编辑任务的千万级样本，为图像编辑模型的训练与评估提供了关键资源，并对推动开源社区在多模态推理编辑领域的发展具有深远影响。

当前挑战

UnicEdit-10M数据集致力于解决图像编辑领域中模型在遵循复杂指令、保持空间一致性以及进行知识驱动推理等方面的综合挑战。传统编辑任务往往局限于简单的对象或属性修改，而该数据集通过引入推理编辑类别，要求模型具备更深层次的语义理解与逻辑推断能力，例如在场景重组或因果关联编辑中保持视觉合理性。在数据构建过程中，研究团队面临规模与质量难以兼得的经典难题：人工标注虽能保证精度却无法扩展，而自动化流程则易受错误传播与噪声干扰。为此，团队设计了统一的后验证机制，并训练了专用的双任务专家模型进行失效检测与指令重述，以在千万级规模下维持数据的高置信度，这一过程本身即是对大规模高质量数据合成技术的重要挑战。

常用场景

经典使用场景

在图像编辑领域，高质量训练数据的匮乏长期制约着开源模型的性能提升。UnicEdit-10M数据集通过其轻量级数据管道和统一的后验证机制，为模型训练提供了大规模、高质量的图像编辑指令数据。该数据集覆盖了从基础的对象编辑、属性编辑到复杂的场景编辑与推理编辑等多样化任务，成为训练和验证下一代图像生成与编辑模型的核心资源。研究者可借助其丰富的样本，系统性地提升模型在遵循复杂指令、保持视觉一致性以及执行空间与知识推理等方面的能力。

解决学术问题

该数据集旨在破解图像编辑研究中长期存在的规模与质量难以兼得的困境。传统方法依赖人工标注难以扩展，而自动化流程则易受错误传播与噪声干扰。UnicEdit-10M通过引入端到端模型与统一的后验证阶段，并训练专用的Qwen-Verify模型进行失效检测与指令重述，实现了对海量数据的高效质量控制。这不仅为开源社区提供了可媲美闭源模型训练质量的数据基础，其伴随发布的UnicBench基准与新颖评估指标（如非编辑一致性、推理准确率），更为诊断模型在不同编辑行为上的弱点提供了精细化的分析工具，推动了图像编辑技术向更可靠、更智能的方向演进。

衍生相关工作

围绕UnicEdit-10M数据集及其基准UnicBench，已衍生出一系列重要的研究工作。其中最核心的贡献是训练了专用于质量验证的7B参数双任务专家模型Qwen-Verify，该模型为大规模数据清洗提供了高效解决方案。同时，基于该基准对主流图像编辑模型（如FLUX.1-Kontext、Qwen-Image-Edit）进行的系统性评估，揭示了现有模型在遵循指令、保持一致性及执行推理等方面的具体局限，为后续研究指明了明确的改进方向。这些工作共同构成了一个从数据构建、质量验证到模型评估的完整生态，持续推动着图像编辑领域的算法进步与标准建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集