ScaleEdit-12M
收藏ScaleEdit-12M 数据集概述
数据集基本信息
- 数据集名称: ScaleEdit-12M
- 发布机构/团队: InternVL-U
- 许可证: MIT
- 任务类别: 图像到图像
- 主要语言: 英语
- 数据规模: 10M < n < 100M (具体包含1240万条指令-图像对)
- 核心标签: 图像编辑、基于指令的编辑、多模态、计算机视觉、scaleedit、internvl
数据集简介
ScaleEdit-12M是迄今为止最大的开源基于指令的图像编辑数据集。它包含1240万条经过严格验证的指令-图像对,涵盖23个任务系列,涉及多样化的真实和合成视觉领域。该数据集使用ScaleEditor构建,这是一个完全开源的层次化多智能体框架,无需昂贵的专有API。
数据集结构
数据集按任务组织为23个特定子目录,每个目录包含多个分片的Parquet文件。目录命名模式为{category_id}_{task_name}。
主要任务类别
- 全局编辑任务: 1.1_style_transfer, 1.2_tone_adjustment, 1.3_viewpoint_transformation, 1.4_background_replacement
- 对象编辑任务: 2.1_object_addition, 2.2_object_removal, 2.3_object_replacement, 2.4_action_editing, 2.5_part_extraction
- 属性编辑任务: 3.1_color_change, 3.2_material_change, 3.3_visual_beautification, 3.4_count_change, 3.5_size_change
- 文本编辑任务: 4.1_movie_poster_text_editing, 4.2_gui_interface_text_editing, 4.3_object_surface_text_editing, 4.4_building_surface_text_editing
- 知识注入任务: 5.1_perceptual_reasoning, 5.2_symbolic_reasoning, 5.3_social_reasoning, 5.4_scientific_reasoning
- 组合编辑任务: 6.1_compositional_editing
每个任务文件夹包含多个Parquet分片文件(每个约31-32 GB),命名模式为{task_name}_{shard_index:04d}.parquet。
数据模式 (Parquet Schema)
每个Parquet文件包含以下列:
id: 样本的唯一标识符 (int64)edit_task: 任务类别名称 (string)edit_instruction: 自然语言编辑指令 (string)source_image: 原始图像(编辑前)的二进制字节 (binary)edited_image: 编辑后图像的二进制字节 (binary)source_image_width: 原始图像的像素宽度 (int64)source_image_height: 原始图像的像素高度 (int64)edited_image_width: 编辑后图像的像素宽度 (int64)edited_image_height: 编辑后图像的像素高度 (int64)instruction_following_score: 指令遵循质量分数 (1–3)editing_consistency_score: 编辑一致性质量分数 (1–3)generation_quality_score: 生成质量分数 (1–3)
质量评分
每个样本都通过ScaleEditor的任务感知质量验证机制在三个维度上进行评分(1-3分):
- 指令遵循: 编辑后的图像是否准确反映了指令的意图?
- 编辑一致性: 未编辑区域是否保留?编辑在空间上与源图像是否一致?
- 生成质量: 输出图像是否没有伪影、失真和视觉缺陷?
在ScaleEdit中,只保留IF=3, EC≥2, GQ≥2的样本。
构建方法与亮点
数据集使用ScaleEditor框架构建,该框架包含三个阶段:
- 源图像扩展: 从多样化的真实和合成领域策划和扩展源图像,注入世界知识以实现基于知识的编辑任务。
- 自适应多智能体编辑: 一组专门的智能体生成编辑指令和相应的编辑后图像,根据任务系列调整策略。
- 任务感知质量验证: 一个多维评分系统评估指令遵循、编辑一致性和生成质量,过滤掉低质量样本。
效果
在ScaleEdit-12M上微调领先的基础模型能带来一致的性能提升:
- 在通用编辑基准测试(ImgEdit和GEdit)上提升高达+10.4%和+35.1%
- 在知识注入编辑基准测试(RISE和KRIS-Bench)上提升高达+150.0%和+26.5%
这些提升在UniWorld-V1和Bagel模型上得到验证,表明开源智能体流程可以接近商业级数据质量。
相关资源
- 论文地址: https://arxiv.org/abs/2603.20644
- GitHub仓库: https://github.com/gzchen4ai/ScaleEdit-12M
- 技术报告: https://arxiv.org/abs/2603.09877
- 示意图1 (Overview of ScaleEdit-12M): https://github.com/gzchen4ai/ScaleEdit-12M/blob/main/assets/teaser.png?raw=true
- 示意图2 (Overview of ScaleEditor): https://github.com/gzchen4ai/ScaleEdit-12M/blob/main/assets/pipeline.png?raw=true
引用
bibtex @article{chen2026scaleedit, title={ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework}, author={Chen, Guanzhou and Cui, Erfei and Tian, Changyao and Yang, Danni and Yang, Ganlin and Qiao, Yu and Li, Hongsheng and Luo, Gen and Zhang, Hongjie}, journal={arXiv preprint arXiv:2603.20644}, year={2026} } @article{tian2026internvl, title={InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing}, author={Tian, Changyao and Yang, Danni and Chen, Guanzhou and Cui, Erfei and Wang, Zhaokai and Duan, Yuchen and Yin, Penghao and Chen, Sitao and Yang, Ganlin and Liu, Mingxin and others}, journal={arXiv preprint arXiv:2603.09877}, year={2026} }




