ScaleEdit-12M

github2026-04-03 更新2026-04-04 收录

下载链接：

https://github.com/gzchen4ai/ScaleEdit-12M

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleEdit-12M是迄今为止最大的开源基于指令的图像编辑数据集，包含1240万经过严格验证的指令-图像对，涵盖23个任务家族，跨越多样化的真实和合成视觉领域。它是使用完全开源的层次化多智能体框架ScaleEditor构建的，无需昂贵的专有API。

ScaleEdit-12M is the largest open-source instruction-based image editing dataset to date, containing 12.4 million rigorously validated instruction-image pairs, spanning 23 task families and covering diverse real and synthetic visual domains. It is constructed using the fully open-source hierarchical multi-agent framework ScaleEditor, eliminating the need for expensive proprietary APIs.

创建时间：

2026-03-20

原始信息汇总

ScaleEdit-12M 数据集概述

数据集基本信息

数据集名称：ScaleEdit-12M
数据规模：包含约1240万（12.4 million）个经过严格验证的指令-图像对。
核心特点：迄今为止最大的开源、基于指令的图像编辑数据集。
构建方法：使用完全开源的层次化多智能体框架 ScaleEditor 构建，无需昂贵的专有API。
视觉领域：涵盖多样化的真实和合成视觉领域。

数据集结构与组织

数据集按任务划分为 23个任务族，并组织成23个任务特定的子目录。

目录结构

目录命名模式为 {category_id}_{task_name}，主要任务类别包括：

全局编辑任务：例如 1.1_style_transfer、1.2_tone_adjustment、1.3_viewpoint_transformation、1.4_background_replacement。
对象编辑任务：例如 2.1_object_addition、2.2_object_removal、2.3_object_replacement、2.4_action_editing、2.5_part_extraction。
属性编辑任务：例如 3.1_color_change、3.2_material_change、3.3_visual_beautification、3.4_count_change、3.5_size_change。
文本编辑任务：例如 4.1_movie_poster_text_editing、4.2_gui_interface_text_editing、4.3_object_surface_text_editing、4.4_building_surface_text_editing。
知识注入任务：例如 5.1_perceptual_reasoning、5.2_symbolic_reasoning、5.3_social_reasoning、5.4_scientific_reasoning。
组合编辑任务：例如 6.1_compositional_editing。

每个任务文件夹包含多个Parquet分片文件（通常每个约31-32 GB），命名格式为 {task_name}_{shard_index:04d}.parquet。

数据格式与模式

数据以Parquet文件格式存储，每个文件包含以下列：

列名	类型	描述
`id`	`int64`	样本的唯一标识符
`edit_task`	`string`	任务类别名称（例如 "style_transfer", "object_addition"）
`edit_instruction`	`string`	自然语言编辑指令
`source_image`	`binary`	源图像（编辑前）的原始字节
`edited_image`	`binary`	编辑后图像的原始字节
`source_image_width`	`int64`	源图像的像素宽度
`source_image_height`	`int64`	源图像的像素高度
`edited_image_width`	`int64`	编辑后图像的像素宽度
`edited_image_height`	`int64`	编辑后图像的像素高度
`instruction_following_score`	`int64`	质量分数：编辑遵循指令的程度（1-3）
`editing_consistency_score`	`int64`	质量分数：源图像与编辑后图像之间的一致性（1-3）
`generation_quality_score`	`int64`	质量分数：编辑后图像的整体视觉质量（1-3）

source_image 和 edited_image 列存储为原始二进制字节，可使用PIL库解码。

质量评分标准

每个样本都通过ScaleEditor的任务感知质量验证机制在三个维度上进行评分（1-3分）：

指令遵循：编辑后的图像是否准确反映了指令的意图？
编辑一致性：未编辑的区域是否被保留？编辑在空间上与源图像是否连贯？
生成质量：输出图像是否没有伪影、失真和视觉缺陷？

在ScaleEdit中，只保留 IF=3, EC≥2, GQ≥2 的样本。

数据集亮点与影响

构建框架：ScaleEditor框架包含三个阶段：源图像扩展、自适应多智能体编辑、任务感知质量验证。
性能提升：在ScaleEdit-12M上微调领先的基础模型能带来一致的性能改进：
- 在通用编辑基准测试（ImgEdit, GEdit）上提升高达 +10.4% 和 +35.1%。
- 在知识注入编辑基准测试（RISE, KRIS-Bench）上提升高达 +150.0% 和 +26.5%。
开源优势：证明了开源智能体管道可以接近商业级的数据质量。

访问与引用

数据集地址：https://huggingface.co/datasets/InternVL-U/ScaleEdit-12M
论文地址：https://arxiv.org/abs/2603.20644
相关技术报告：https://arxiv.org/abs/2603.09877
引用格式：请使用README中提供的BibTeX条目进行引用。

搜集汇总

数据集介绍

构建方式

在图像编辑领域，高质量指令数据的匮乏长期制约着生成模型的性能提升。ScaleEdit-12M的构建依托于名为ScaleEditor的开源分层多智能体框架，该框架通过三个阶段系统性地生成数据。首先，框架从多样化的真实与合成视觉域中收集并扩展源图像，为其注入世界知识以支撑后续的编辑任务。随后，一个由专业智能体组成的集合根据不同的任务家族自适应地生成编辑指令并创作对应的编辑后图像。最终，一个任务感知的质量验证机制从指令遵循度、编辑一致性以及生成质量三个维度对样本进行评分，仅保留高质量样本，从而确保了数据集的严谨性与可靠性。

使用方法

该数据集主要服务于训练与评估能够理解并执行复杂自然语言指令的图像编辑模型。研究人员可通过Hugging Face平台便捷地访问数据集，其Parquet文件结构支持高效的数据流式加载与处理。每个样本包含源图像与编辑后图像的二进制数据、对应的编辑指令以及三项质量分数，用户可利用PIL等库解码图像进行可视化或模型输入。在具体应用中，开发者可根据任务类别筛选子集，或利用质量分数对训练数据进行加权或过滤，以针对性地提升模型在指令遵循、编辑一致性或视觉质量等特定维度的性能。

背景与挑战

背景概述

在生成式人工智能迅猛发展的浪潮中，指令驱动的图像编辑技术正成为连接自然语言理解与视觉内容创作的关键桥梁。ScaleEdit-12M数据集于2026年由InternVL-U团队发布，作为迄今规模最大的开源指令式图像编辑数据集，它旨在解决多模态大模型在复杂、细粒度图像编辑任务中数据稀缺与质量参差的根本问题。该数据集涵盖了23个任务族，包含1240万条经过严格验证的指令-图像对，其构建依托于完全开源的ScaleEditor多智能体框架，摒弃了对昂贵商业API的依赖，显著推动了开放研究生态的发展，并为图像生成与编辑模型的性能提升提供了坚实的数据基础。

当前挑战

该数据集致力于攻克指令式图像编辑这一核心领域问题，其挑战在于如何精准理解并执行涵盖风格迁移、物体增删、属性修改乃至知识推理等高度多样化的编辑指令，同时确保编辑结果在语义一致性、视觉保真度与艺术美感上的统一。在构建过程中，团队面临三大挑战：一是如何通过可扩展的多智能体框架，自动化生成海量且高质量的编辑指令与对应图像，避免人工标注的瓶颈；二是设计一套任务感知的质量验证机制，从指令遵循、编辑一致性与生成质量三个维度对千万级样本进行高效筛选，确保数据集的纯净度与可靠性；三是整合来自真实与合成视觉领域的多样化源图像，并为其注入世界知识，以支撑知识融合型编辑任务，这对数据源的广度与知识表示的深度提出了极高要求。

常用场景

经典使用场景

在图像生成与编辑领域，ScaleEdit-12M数据集凭借其庞大的规模与精细的任务划分，为指令驱动的图像编辑模型提供了丰富的训练资源。该数据集覆盖了风格迁移、对象增删、属性调整等23类任务，其经典应用场景在于训练和评估多模态大模型在理解自然语言指令后对图像进行精确编辑的能力。研究人员利用这些高质量的指令-图像对，能够系统性地提升模型在复杂编辑任务中的泛化性能与指令遵循精度。

解决学术问题

该数据集有效应对了开放领域图像编辑研究中高质量、大规模训练数据匮乏的挑战。通过ScaleEditor多智能体框架生成的逾1200万对经过严格验证的数据，解决了以往依赖私有API或小规模数据导致的模型泛化能力不足、编辑任务覆盖狭窄等问题。其意义在于为社区提供了一个完全开源、任务多样且质量可控的基准，推动了指令理解、视觉一致性保持以及知识引导编辑等核心学术问题的探索，显著降低了相关研究的门槛。

实际应用

在实际应用层面，ScaleEdit-12M为开发智能图像处理工具提供了坚实的数据基础。基于该数据集训练的模型，可广泛应用于数字内容创作、广告设计、电子商务产品图修饰以及影视海报生成等领域。例如，用户可通过自然语言指令轻松实现商品背景替换、宣传物料风格统一或界面文本修改，极大提升了创意工作的效率与自动化水平，使高质量图像编辑技术得以惠及更广泛的非专业用户。

数据集最近研究