ScaleEdit-12M

Hugging Face2026-04-03 更新2026-04-04 收录

下载链接：

https://huggingface.co/datasets/InternVL-U/ScaleEdit-12M

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleEdit-12M是目前最大的开源基于指令的图像编辑数据集，包含1240万条经过严格验证的指令-图像对，涵盖23个任务家族，覆盖多样化的真实和合成视觉领域。该数据集采用完全开源的层次化多智能体框架ScaleEditor构建，无需依赖昂贵的专有API。数据集结构按任务类别分为23个子目录，每个目录包含多个Parquet分片文件。每个样本包含唯一标识符、编辑任务类别、自然语言编辑指令、源图像和编辑后的图像（以二进制格式存储）、图像尺寸信息以及三个维度的质量评分（指令遵循、编辑一致性和生成质量）。所有样本均经过严格的质量验证，仅保留高质量数据。该数据集适用于图像编辑、多模态理解和生成任务，已在多个基准测试中展现出显著的性能提升。

创建时间：

2026-03-20

原始信息汇总

ScaleEdit-12M 数据集概述

数据集基本信息

数据集名称: ScaleEdit-12M
发布机构/团队: InternVL-U
许可证: MIT
任务类别: 图像到图像
主要语言: 英语
数据规模: 10M < n < 100M (具体包含1240万条指令-图像对)
核心标签: 图像编辑、基于指令的编辑、多模态、计算机视觉、scaleedit、internvl

数据集简介

ScaleEdit-12M是迄今为止最大的开源基于指令的图像编辑数据集。它包含1240万条经过严格验证的指令-图像对，涵盖23个任务系列，涉及多样化的真实和合成视觉领域。该数据集使用ScaleEditor构建，这是一个完全开源的层次化多智能体框架，无需昂贵的专有API。

数据集结构

数据集按任务组织为23个特定子目录，每个目录包含多个分片的Parquet文件。目录命名模式为{category_id}_{task_name}。

主要任务类别

全局编辑任务: 1.1_style_transfer, 1.2_tone_adjustment, 1.3_viewpoint_transformation, 1.4_background_replacement
对象编辑任务: 2.1_object_addition, 2.2_object_removal, 2.3_object_replacement, 2.4_action_editing, 2.5_part_extraction
属性编辑任务: 3.1_color_change, 3.2_material_change, 3.3_visual_beautification, 3.4_count_change, 3.5_size_change
文本编辑任务: 4.1_movie_poster_text_editing, 4.2_gui_interface_text_editing, 4.3_object_surface_text_editing, 4.4_building_surface_text_editing
知识注入任务: 5.1_perceptual_reasoning, 5.2_symbolic_reasoning, 5.3_social_reasoning, 5.4_scientific_reasoning
组合编辑任务: 6.1_compositional_editing

每个任务文件夹包含多个Parquet分片文件（每个约31-32 GB），命名模式为{task_name}_{shard_index:04d}.parquet。

数据模式 (Parquet Schema)

每个Parquet文件包含以下列：

id: 样本的唯一标识符 (int64)
edit_task: 任务类别名称 (string)
edit_instruction: 自然语言编辑指令 (string)
source_image: 原始图像（编辑前）的二进制字节 (binary)
edited_image: 编辑后图像的二进制字节 (binary)
source_image_width: 原始图像的像素宽度 (int64)
source_image_height: 原始图像的像素高度 (int64)
edited_image_width: 编辑后图像的像素宽度 (int64)
edited_image_height: 编辑后图像的像素高度 (int64)
instruction_following_score: 指令遵循质量分数 (1–3)
editing_consistency_score: 编辑一致性质量分数 (1–3)
generation_quality_score: 生成质量分数 (1–3)

质量评分

每个样本都通过ScaleEditor的任务感知质量验证机制在三个维度上进行评分（1-3分）：

指令遵循: 编辑后的图像是否准确反映了指令的意图？
编辑一致性: 未编辑区域是否保留？编辑在空间上与源图像是否一致？
生成质量: 输出图像是否没有伪影、失真和视觉缺陷？

在ScaleEdit中，只保留IF=3, EC≥2, GQ≥2的样本。

构建方法与亮点

数据集使用ScaleEditor框架构建，该框架包含三个阶段：

源图像扩展: 从多样化的真实和合成领域策划和扩展源图像，注入世界知识以实现基于知识的编辑任务。
自适应多智能体编辑: 一组专门的智能体生成编辑指令和相应的编辑后图像，根据任务系列调整策略。
任务感知质量验证: 一个多维评分系统评估指令遵循、编辑一致性和生成质量，过滤掉低质量样本。

效果

在ScaleEdit-12M上微调领先的基础模型能带来一致的性能提升：

在通用编辑基准测试（ImgEdit和GEdit）上提升高达+10.4%和+35.1%
在知识注入编辑基准测试（RISE和KRIS-Bench）上提升高达+150.0%和+26.5%

这些提升在UniWorld-V1和Bagel模型上得到验证，表明开源智能体流程可以接近商业级数据质量。

引用

bibtex @article{chen2026scaleedit, title={ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework}, author={Chen, Guanzhou and Cui, Erfei and Tian, Changyao and Yang, Danni and Yang, Ganlin and Qiao, Yu and Li, Hongsheng and Luo, Gen and Zhang, Hongjie}, journal={arXiv preprint arXiv:2603.20644}, year={2026} } @article{tian2026internvl, title={InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing}, author={Tian, Changyao and Yang, Danni and Chen, Guanzhou and Cui, Erfei and Wang, Zhaokai and Duan, Yuchen and Yin, Penghao and Chen, Sitao and Yang, Ganlin and Liu, Mingxin and others}, journal={arXiv preprint arXiv:2603.09877}, year={2026} }

搜集汇总

数据集介绍

构建方式

在图像编辑领域，数据集的构建质量直接关系到模型的学习效果。ScaleEdit-12M的构建采用了名为ScaleEditor的层次化多智能体框架，该框架完全基于开源技术，避免了依赖昂贵的专有API。其构建过程分为三个阶段：首先通过源图像扩展阶段，从多样化的真实与合成视觉领域中精心策划并扩充源图像，同时注入世界知识以支持基于知识的编辑任务；随后进入自适应多智能体编辑阶段，由一组专门化的智能体协同工作，针对不同任务家族自适应地生成编辑指令及对应的编辑后图像；最后通过任务感知的质量验证阶段，采用多维度评分系统对指令遵循度、编辑一致性和生成质量进行严格评估，仅保留高质量样本，从而确保了数据集的可靠性与多样性。

特点

作为当前最大的开源指令式图像编辑数据集，ScaleEdit-12M蕴含了1240万条经过严格验证的指令-图像对，覆盖了23个任务家族，展现了其卓越的规模与广度。该数据集在结构上按任务类别精细组织为多个子目录，每个子目录包含分片的Parquet文件，便于高效存储与访问。其核心特征在于每个样本均附带了三维质量评分，包括指令遵循、编辑一致性和生成质量，这些评分通过任务感知的验证机制得出，为模型训练提供了可靠的质量信号。此外，数据集涵盖了从风格迁移、对象编辑到知识融合编辑等多种任务类型，为图像编辑模型的全面能力评估与提升奠定了坚实基础。

使用方法

对于研究人员与开发者而言，ScaleEdit-12M为训练与评估指令驱动的图像编辑模型提供了丰富资源。数据集以Parquet格式存储，每个文件包含唯一标识符、任务类别、自然语言编辑指令、源图像与编辑后图像的二进制数据，以及图像尺寸和质量评分等关键列。用户可通过标准数据处理库加载Parquet文件，并利用PIL等图像库将二进制列解码为可操作的图像对象。在实际应用中，该数据集可直接用于监督式微调，以提升基础模型在通用编辑和知识融合编辑任务上的性能；其清晰的任务分类与质量标注也支持针对特定编辑能力的定向研究与基准测试，推动开源图像编辑技术的进一步发展。

背景与挑战

背景概述

在图像生成与编辑技术迅猛发展的时代背景下，指令驱动的图像编辑已成为连接自然语言理解与视觉内容创作的关键桥梁。ScaleEdit-12M数据集由InternVL-U团队于2026年创建并公开发布，其核心研究目标在于解决开放领域、多任务图像编辑模型训练所需大规模、高质量数据匮乏的瓶颈问题。该数据集通过创新的多智能体框架ScaleEditor，自动化生成了涵盖23个任务家族、总计1240万条经过严格验证的指令-图像对，显著推动了开源图像编辑数据的规模化进程，并为后续多模态基础模型的性能提升提供了坚实的数据支撑。

当前挑战

指令式图像编辑领域长期面临的核心挑战在于如何确保模型能够精准理解复杂、开放式的自然语言指令，并生成语义一致、视觉逼真且不破坏原始图像内容的编辑结果。ScaleEdit-12M在构建过程中，需克服从海量异构图像源中筛选合适素材、设计覆盖广泛编辑意图的多样化指令、以及确保生成结果在指令遵循、编辑一致性与视觉质量三个维度上均达到高标准等多重困难。其采用的层次化多智能体框架与任务感知的质量验证机制，正是为了系统性地应对这些数据生成与筛选的复杂性挑战。

常用场景

经典使用场景

在计算机视觉与多模态人工智能领域，指令驱动的图像编辑任务正成为研究热点。ScaleEdit-12M作为当前规模最大的开源指令图像编辑数据集，其经典使用场景集中于训练和评估能够理解并执行复杂自然语言指令的图像编辑模型。研究者利用其涵盖的23个任务家族、超过1200万对高质量的指令-图像样本，系统性地提升模型在风格迁移、对象增删、属性修改及知识推理编辑等多维度任务上的泛化能力与指令遵循精度。

衍生相关工作

ScaleEdit-12M的发布催生了一系列围绕高效多模态编辑模型的创新研究。其衍生的经典工作主要包括对UniWorld-V1、Bagel等大型基础模型的微调与能力拓展，这些工作验证了利用大规模开源合成数据显著提升模型在ImgEdit、GEdit、RISE及KRIS-Bench等权威评测集上性能的可行性。此外，其背后的ScaleEditor框架也为后续研究如何利用多智能体协同生成高质量多模态数据提供了重要的方法论参考与工程实践蓝图。

数据集最近研究