Pico-Banana-400K

github2025-10-22 更新2025-10-24 收录

下载链接：

https://github.com/apple/pico-banana-400k

下载链接

链接失效反馈

官方服务：

资源简介：

Pico-Banana-400K是一个大规模数据集，包含约40万文本-图像-编辑三元组，专门用于文本引导的图像编辑研究。数据集基于Open Images构建，涵盖35种编辑操作和8个语义类别，包括像素和光度调整、对象级别编辑、场景组合、风格转换等。每个示例包含原始图像、人类化编辑指令和经过Nano-Banana模型生成验证的编辑结果。

Pico-Banana-400K is a large-scale dataset containing approximately 400,000 text-image-editing triplets, specifically tailored for text-guided image editing research. Built upon Open Images, the dataset covers 35 editing operations and 8 semantic categories, including pixel and photometric adjustments, object-level editing, scene composition, style transfer, and more. Each sample consists of the original image, human-authored editing instructions, and edited results generated and validated by the Nano-Banana model.

创建时间：

2025-10-22

原始信息汇总

Pico-Banana-400K 数据集概述

数据集简介

Pico-Banana-400K 是一个大规模文本引导图像编辑数据集，包含约40万文本-图像-编辑三元组，旨在推进文本引导图像编辑研究。

核心特征

总样本量：约40万图像编辑数据
数据组成：
- 约25.7万单轮文本-图像-编辑三元组（用于SFT）
- 约5.6万单轮文本-图像（正例）-图像（负例）-编辑（用于偏好学习）
- 约7.2万多轮文本-图像-编辑（用于多轮应用）
图像源：Open Images
编辑操作：35种操作，涵盖8个语义类别
图像分辨率：512-1024像素
提示生成器：Gemini-2.5-Flash
编辑模型：Nano-Banana
自评估：使用Gemini-2.5-Pro的自动评估流程

类别分布

类别	描述	百分比
对象级语义	添加、移除、替换或重定位对象	35%
场景构图与多主体	上下文和环境转换	20%
以人为中心	涉及服装、表情或外观的编辑	18%
风格化	领域和艺术风格转换	10%
文本与符号	涉及可见文本、标志或符号的编辑	8%
像素与光度	亮度、对比度和色调调整	5%
尺度与透视	缩放、视点或取景变化	2%
空间/布局	外绘、构图或画布扩展	2%

数据集构建

采用两阶段多模态生成流程：

指令生成：使用Gemini-2.5-Flash为每个Open Images样本生成简洁的自然语言编辑指令
编辑与自评估：Nano-Banana模型执行编辑，通过结构化质量提示自动评估结果，仅保留得分高于严格阈值（约0.7）的成功编辑

应用场景

可控和指令感知的图像编辑
多轮对话式编辑
基于奖励的训练范式

下载指南

单轮编辑图像

清单文件：

https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/sft_manifest.txt
https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/preference_manifest.txt

多轮编辑图像

清单文件：https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/manifest/multi_turn_manifest.txt

源图像

下载链接随编辑指令在以下文件中提供：

https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/jsonl/sft.jsonl
https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/jsonl/preference.jsonl
https://ml-site.cdn-apple.com/datasets/pico-banana-300k/nb/jsonl/multi-turn.jsonl

许可证

使用知识共享署名-非商业性使用-禁止演绎 4.0 许可证
仅限研究和非商业用途
源图像遵循Open Images（CC BY 2.0）许可证

引用

bibtex @misc{qian2025picobanana, title = {Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing}, author = {Yusu Qian and Eli Bocek-Rivele and Liangchen Song and Jiasen Lu and Jialing Tong and Yinfei Yang and Wenze Hu and Zhe Gan}, year = {2025}, note = {Dataset release (preprint / placeholder citation). Paper forthcoming.}, url = {https://github.com/apple/ml-pico-banana-400K}, }

搜集汇总

数据集介绍

构建方式

在文本引导图像编辑领域，Pico-Banana-400K数据集通过两阶段多模态生成流程构建而成。初始阶段利用Gemini-2.5-Flash模型对Open Images原始图像生成自然语言编辑指令，确保指令与视觉内容紧密关联；随后通过Nano-Banana模型执行编辑操作，并采用自动化评估流程从指令遵循度、编辑真实性和技术质量等维度进行严格筛选，仅保留评分超过阈值的优质样本，最终形成包含约40万组文本-图像-编辑三元组的大规模数据集。

特点

该数据集涵盖35种编辑操作与8大语义类别，从像素级色彩调整到场景构图转换均有所涉及。其核心特征体现在多维度数据构成：约25.7万组单轮监督微调样本提供精准的编辑映射，5.6万组偏好学习样本保留失败案例以增强模型鲁棒性，另有7.2万组多轮对话样本支持复杂编辑任务。所有图像均保持512-1024像素分辨率，且编辑指令均通过大语言模型生成，兼具语义丰富性与人类表达习惯。

使用方法

研究者可通过官方提供的清单文件分模块获取数据资源，单轮编辑样本与偏好学习样本分别对应独立清单，多轮对话数据则通过专属清单获取。原始图像下载链接内嵌于JSONL格式的元数据文件中，支持直接解析使用。该数据集适用于监督微调、偏好对齐及多轮对话训练等多种范式，为开发可控图像编辑模型提供全面支撑，所有使用需遵循CC BY-NC-ND 4.0许可协议。

背景与挑战

背景概述

随着生成式人工智能技术的蓬勃发展，文本引导图像编辑已成为计算机视觉领域的重要研究方向。Pico-Banana-400K数据集由苹果研究团队于2025年发布，旨在通过约40万组文本-图像-编辑三元组，系统性地解决自然语言指令驱动的图像内容修改问题。该数据集基于Open Images真实图像库构建，涵盖像素级调整、对象级语义编辑、场景重构等8大语义类别共35种编辑操作，为多轮对话式编辑与偏好学习提供了标准化基准。

当前挑战

文本引导图像编辑面临的核心挑战在于精准理解多模态语义关联与保持视觉一致性。具体表现为：编辑模型需同时兼顾指令遵循度、视觉真实性与内容保留度的平衡；数据集构建过程中，自动化流水线需克服生成指令的语义歧义问题，并通过严格的质量阈值筛选确保编辑结果的可靠性。此外，多轮交互场景下的指令累积效应与长程依赖关系，对模型的上下文理解能力提出了更高要求。

常用场景

经典使用场景

在文本引导图像编辑领域，Pico-Banana-400K数据集通过约40万条文本-图像-编辑三元组，为模型训练提供了丰富素材。其覆盖35种编辑操作与8类语义范畴，从像素级色彩调整到对象级语义变换，构建了多粒度编辑任务的基础框架。该数据集支持单轮指令微调与多轮对话式编辑，成为评估生成模型语义理解与视觉保真能力的重要基准。

衍生相关工作

该数据集的发布催生了系列创新研究，如基于多轮对话的渐进式编辑框架与融合自监督信号的编辑质量评估体系。其构建的失败案例库促进了鲁棒性训练范式的演进，启发研究者开发出融合人类反馈的强化学习策略。这些工作共同推动了可控生成技术从单模态指令执行向多模态语义理解的理论跨越。

数据集最近研究