Pico-Banana-400K
收藏arXiv2025-10-23 更新2025-10-24 收录
下载链接:
https://github.com/apple/pico-banana-400k
下载链接
链接失效反馈官方服务:
资源简介:
Pico-Banana-400K是一个包含约400,000个文本引导图像编辑示例的综合数据集,这些示例是从OpenImages数据集中的真实照片构建的。该数据集采用了35种编辑类型的系统分类法,并通过基于MLLM的质量评分和人工筛选来确保高质量和多样性。数据集包括三个专门的子集:一个72K示例的多轮集合用于研究连续修改中的顺序编辑、推理和规划;一个56K示例的偏好子集用于对齐研究和奖励模型训练;以及成对的长期和短期编辑指令,用于开发指令重写和摘要能力。通过提供这个大规模、高质量和任务丰富的资源,Pico-Banana-400K为训练和评估下一代文本引导图像编辑技术奠定了坚实的基础。
Pico-Banana-400K is a comprehensive dataset containing approximately 400,000 text-guided image editing examples, constructed from real photographs in the OpenImages dataset. This dataset adopts a systematic taxonomy of 35 editing types, and ensures high quality and diversity via MLLM-based quality scoring and manual screening. The dataset includes three specialized subsets: a 72K-sample multi-turn collection for researching sequential editing, reasoning and planning in continuous modification; a 56K-sample preference subset for alignment research and reward model training; and paired long-term and short-term editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality and task-rich resource, Pico-Banana-400K lays a solid foundation for training and evaluating next-generation text-guided image editing technologies.
提供机构:
Apple
创建时间:
2025-10-23
原始信息汇总
Pico-Banana-400K 数据集概述
数据集简介
Pico-Banana-400K 是一个大规模文本引导图像编辑数据集,包含约40万文本-图像-编辑三元组,旨在推动文本引导图像编辑研究。
核心特征
- 总样本量:约25.7万单轮文本-图像-编辑三元组(用于SFT),约5.6万单轮文本-图像(正面)-图像(负面)-编辑(用于偏好学习),约7.2万多轮文本-图像-编辑(用于多轮应用)
- 数据来源:Open Images
- 编辑操作:35种编辑操作,涵盖8个语义类别
- 图像分辨率:512-1024像素
- 提示生成器:Gemini-2.5-Flash
- 编辑模型:Nano-Banana
- 自评估:使用Gemini-2.5-Pro的自动评估流程
类别分布
| 类别 | 描述 | 占比 |
|---|---|---|
| 对象级语义 | 添加、移除、替换或重定位对象 | 35% |
| 场景构图与多主体 | 上下文和环境变换 | 20% |
| 以人为中心 | 涉及服装、表情或外貌的编辑 | 18% |
| 风格化 | 领域和艺术风格转换 | 10% |
| 文本与符号 | 涉及可见文本、标志或符号的编辑 | 8% |
| 像素与光度 | 亮度、对比度和色调调整 | 5% |
| 尺度与透视 | 缩放、视点或取景变化 | 2% |
| 空间/布局 | 外绘、构图或画布扩展 | 2% |
数据构成
- 单轮SFT样本(成功编辑):约25.7万
- 单轮偏好样本(失败案例):约5.6万
- 多轮SFT样本(失败案例):约7.2万
- 编辑覆盖范围:8个语义类别中的35种编辑类型
- 图像多样性:包含来自Open Images的人类、对象、文本丰富场景等
数据集构建
采用两阶段多模态生成流程:
- 指令生成:使用Gemini-2.5-Flash为每个Open Images样本生成简洁、自然的编辑指令
- 编辑与自评估:Nano-Banana模型执行编辑,并通过结构化质量提示自动评估结果
下载指南
- 单轮编辑图像:清单文件 https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/sft_manifest.txt 和 https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/preference_manifest.txt
- 多轮编辑图像:清单文件 https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/multi_turn_manifest.txt
- 源图像:下载链接随编辑指令在JSONL文件中提供
许可证
- 采用知识共享署名-非商业性使用-禁止演绎4.0国际许可证
- 允许研究和非商业用途
- 禁止商业使用和衍生再分发
- 源图像遵循Open Images(CC BY 2.0)许可证
引用格式
bibtex @misc{qian2025picobanana, title = {Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing}, author = {Yusu Qian and Eli Bocek-Rivele and Liangchen Song and Jiasen Lu and Jialing Tong and Yinfei Yang and Wenze Hu and Zhe Gan}, year = {2025}, note = {Dataset release (preprint / placeholder citation). Paper forthcoming.}, url = {https://github.com/apple/ml-pico-banana-400K}, }
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,构建高质量图像编辑数据集对推动多模态模型发展至关重要。Pico-Banana-400K采用系统化构建流程,基于OpenImages数据集的真实图像,通过Nano-Banana模型生成多样化的编辑对。构建过程中运用细粒度图像编辑分类法确保编辑类型的全面覆盖,同时采用基于MLLM的质量评分机制进行严格筛选,保留失败编辑案例作为负样本,形成包含成功与失败对比的偏好数据子集。
特点
该数据集在文本引导图像编辑领域具有显著特色。其核心优势在于包含35种编辑类型的细粒度分类体系,覆盖像素级调整、对象语义编辑、场景合成等八大类别。特别值得关注的是,数据集提供双指令格式——既包含详细的训练导向提示,也提供简洁的用户风格指令,这种设计为研究不同粒度指令对编辑效果的影响提供了理想实验平台。此外,数据集还专门包含多轮编辑序列和偏好对比子集,支持复杂编辑场景和偏好对齐研究。
使用方法
在具体应用层面,Pico-Banana-400K为图像编辑研究提供了多维度支持。单轮编辑子集适用于基础指令跟随模型的监督微调训练,其中258K成功编辑样本可作为高质量训练数据。56K偏好对比子集特别适合直接偏好优化等对齐方法的研究,通过成功与失败编辑的对比学习提升模型鲁棒性。72K多轮编辑序列则为研究迭代优化、上下文感知编辑等复杂场景提供了实验基础,每个会话包含2-5个连续编辑步骤,支持编辑规划和推理能力的研究。
背景与挑战
背景概述
随着多模态大语言模型的迅猛发展,文本引导图像编辑技术已成为计算机视觉领域的前沿研究方向。2025年,苹果公司研究团队发布了Pico-Banana-400K数据集,该数据集基于OpenImages真实图像库,通过Nano-Banana模型生成40万组编辑样本。其核心目标在于构建大规模、高质量且可公开获取的编辑数据集,通过35类细粒度编辑分类体系与自动化质量评估机制,为图像编辑模型的训练与基准测试提供标准化资源。该数据集通过引入多轮编辑序列与偏好对比样本,显著推动了复杂编辑场景与对齐学习的研究进程。
当前挑战
文本引导图像编辑领域长期面临语义控制精度不足与编辑类型分布失衡的挑战,具体表现为空间布局调整与文本符号修改的成功率显著低于全局风格转换。在数据集构建过程中,研究团队需克服多维度质量控制难题:通过Gemini-2.5-Pro构建四维评估体系确保指令遵循度与视觉连贯性,同时采用双重指令生成策略平衡训练需求与用户表达习惯。此外,多轮编辑序列的连贯性维护与负样本的质量筛选,进一步增加了数据标注与验证的复杂度。
常用场景
经典使用场景
在文本引导图像编辑领域,Pico-Banana-400K数据集通过其40万高质量图像编辑样本,为多模态模型训练提供了标准化基准。该数据集覆盖像素级调整、对象语义操作、场景重构等35类编辑任务,尤其擅长处理复杂指令下的多轮迭代编辑,例如从原始图像逐步添加滤镜、更换背景并调整光照的连贯操作。其基于真实图像的构建方式确保了编辑结果的视觉一致性与语义准确性,成为评估模型指令遵循能力与编辑稳定性的核心工具。
解决学术问题
该数据集有效解决了文本引导图像编辑研究中数据质量不均与领域偏移的瓶颈问题。通过Gemini-2.5-Pro自动化评分系统与细粒度编辑分类体系,显著提升了编辑指令的语义保真度与内容一致性。其提供的失败案例与成功样本对比数据,为偏好对齐算法与奖励模型训练提供了关键支撑,推动了对模型鲁棒性、多轮推理能力及跨域泛化性能的系统性研究。
衍生相关工作
基于该数据集衍生的经典工作包括指令重写模型优化、多模态对齐框架设计等领域。其偏好配对数据催生了针对编辑质量的强化学习策略,而多轮编辑序列推动了时序感知的扩散模型架构创新。在模型层面,该数据集为Step1X-Edit等通用编辑系统提供了训练基础,并在ICEdit等工作中拓展了上下文编辑能力,持续推动文本引导编辑技术向精细化、可控化方向发展。
以上内容由遇见数据集搜集并总结生成



