Nano-banana-150k

Name: Nano-banana-150k
Creator: Skywork
Published: 2026-02-04 11:34:15
License: 暂无描述

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/Skywork/Nano-banana-150k

下载链接

链接失效反馈

官方服务：

资源简介：

Nano-banana-150k 是一个开源的大规模图像编辑指令数据集，专门用于单图像编辑训练，是 UniPic3 框架中指令跟随图像编辑能力的核心数据源之一。该数据集源自原始 Nano Banana 数据集，包含 123,268 个精心策划的图像编辑样本，涵盖多种编辑场景，包括时间风格转换（如 1905、1980、2000、2024 和动漫风格）、背景替换、动作/手势修改、发型变换以及艺术肖像（黑白和柔和色调）生成。每个样本提供详细的自然语言编辑指令，精确描述所需的视觉变化、风格要求、背景修改、姿势指导等。数据集以 JSONL 格式组织，包含输入图像路径、输出图像路径和任务类型等信息，适用于训练和评估图像到图像翻译模型、可控图像编辑、风格迁移模型以及指令跟随视觉模型。数据集文件包括主 JSONL 文件（73.8 MB）和压缩的图像存档（10.6 GB），需要相应的存储空间。

Nano-banana-150k is an open-source large-scale image editing instruction dataset specifically designed for single-image editing training, and serves as one of the core data sources for the instruction-following image editing capabilities of the UniPic3 framework. Derived from the original Nano Banana dataset, this dataset contains 123,268 carefully curated image editing samples covering a wide range of editing scenarios, including temporal and stylistic transfer (e.g., 1905, 1980, 2000, 2024 and anime styles), background replacement, action/gesture modification, hairstyle transformation, as well as artistic portrait generation (black-and-white and soft-toned). Each sample provides detailed natural language editing instructions that precisely describe the required visual changes, style requirements, background modifications, pose guidance and other relevant details. The dataset is organized in JSONL format, containing information such as input image paths, output image paths and task types, and is suitable for training and evaluating image-to-image translation models, controllable image editing, style transfer models and instruction-following visual models. The dataset files include the main JSONL file (73.8 MB) and a compressed image archive (10.6 GB), requiring corresponding storage space.

提供机构：

Skywork

创建时间：

2026-01-28

搜集汇总

数据集介绍

构建方式

在图像编辑与生成领域，大规模、高质量的指令数据集是推动模型能力发展的关键基石。Nano-banana-150k数据集源于原始的Nano Banana数据集，经过精心的筛选与重构，形成了包含123,268个样本的大规模集合。其构建过程聚焦于多样化的图像编辑任务，通过系统化的标注流程，为每个样本配以详尽的自然语言指令，精确描述了从时间风格转换、背景替换到姿态与发型修改等具体编辑需求。数据以清晰的JSONL格式组织，确保了指令、输入图像路径与输出图像路径之间的结构化对应，为模型训练提供了可靠且易于处理的数据基础。

使用方法

为便于研究与开发，数据集提供了灵活多样的使用途径。用户可通过Hugging Face的`datasets`库直接加载，实现数据的即时访问与流式处理；亦可直接解析本地的JSONL文件，结合自定义的数据加载逻辑进行深度定制。数据集压缩包内含全部关联图像，用户可根据需求选择按需加载或完整解压。此外，数据内置的任务类型与分类标签支持高效的样本筛选，例如按目标时代风格过滤时间变迁任务，使得研究者能够针对特定子任务构建训练集或评估集，极大提升了数据利用的针对性与效率。

背景与挑战

背景概述

在人工智能驱动的图像生成与编辑领域，指令跟随的图像编辑技术旨在通过自然语言精确控制视觉内容的修改，成为连接语言理解与视觉创作的关键桥梁。Nano-banana-150k数据集由Skywork等研究机构于2025至2026年间构建并公开发布，作为Nano Banana系列的重要组成部分，专门用于训练如UniPic3等统一多图像合成模型。该数据集聚焦于解决单图像编辑任务中的核心研究问题，即如何依据复杂的文本指令，对输入图像进行多样化、高保真度的视觉转换，涵盖时序风格迁移、背景替换、姿态调整及人像艺术化处理等多个场景。其大规模、高质量的标注样本为指令跟随的图像编辑模型提供了关键的训练资源，显著推动了可控图像生成技术的发展，并在实际生产应用中展现出重要价值。

当前挑战

该数据集致力于应对指令跟随图像编辑领域的核心挑战，即如何使模型精准理解并执行复杂、细粒度的自然语言编辑指令，同时保持输出图像在语义一致性、视觉逼真度与审美质量上的高标准。具体而言，挑战体现在多个维度：模型需在改变特定视觉属性（如时代风格、背景、发型）时，严格保留主体身份与核心内容；需处理指令中可能存在的模糊性或主观描述，实现可靠的多模态对齐。在数据集构建过程中，挑战同样显著：需要人工精心设计并标注超过12万条涵盖六类任务的多样化、高质量编辑指令与图像对，确保指令的明确性与可执行性；需收集并处理海量的原始图像与对应的编辑后输出，在保持视觉质量的同时，构建清晰、一致的数据结构以支持高效的模型训练与评估。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，Nano-banana-150k数据集最经典的用途是训练指令跟随的图像编辑模型。该数据集通过提供超过12万条包含自然语言指令和对应图像对的样本，使模型能够学习如何根据文本描述精确地修改输入图像。具体而言，模型被训练以理解诸如“将人物背景替换为海滩日落场景”或“将发型改为波浪卷发”等复杂指令，并生成符合要求的输出图像。这一过程通常涉及图像到图像的转换任务，要求模型在保持主体一致性的同时，实现风格、背景、姿态等多维度的可控编辑。

解决学术问题

该数据集有效解决了生成式人工智能中指令跟随图像编辑的核心学术挑战。传统图像编辑模型往往缺乏对复杂自然语言指令的细粒度理解和执行能力，而Nano-banana-150k通过大规模、高质量的多任务标注，为模型提供了学习语义对齐与视觉转换的丰富素材。它助力研究者探索如何将离散的文本指令映射为连续的像素级修改，推动了可控内容生成、跨模态理解以及少样本学习等方向的发展。其意义在于为评估模型在开放域编辑任务上的泛化能力设立了基准，加速了通用视觉助手从研究走向实用的进程。

实际应用

在实际应用层面，基于Nano-banana-150k训练的模型已广泛应用于创意产业与数字内容生产。在影视后期与广告设计领域，它能够快速实现人物肖像的风格化处理、背景替换或姿态调整，大幅提升创作效率。社交媒体平台则可利用其进行个性化的头像美化与艺术滤镜生成。此外，在电子商务中，该技术能帮助商家一键生成多场景、多风格的产品展示图。这些应用不仅降低了专业图像编辑的门槛，也为用户提供了高度定制化的视觉内容生成服务，展现了人工智能赋能创意工作的巨大潜力。

数据集最近研究