MultiBanana

github2025-11-27 更新2025-11-30 收录

下载链接：

https://github.com/matsuolab/multibanana

下载链接

链接失效反馈

官方服务：

资源简介：

MultiBanana是一个用于多参考文本到图像生成的挑战性基准测试数据集，包含多个参考图像和对应的文本提示，用于评估生成模型在多参考场景下的性能

MultiBanana is a challenging benchmark dataset for multi-reference text-to-image generation. It consists of multiple reference images paired with their corresponding text prompts, and is designed to evaluate the performance of generative models in multi-reference scenarios.

创建时间：

2025-11-27

原始信息汇总

MultiBanana 数据集概述

数据集基本信息

名称：MultiBanana
性质：多参考文本到图像生成的挑战性基准数据集
许可证：Apache-2.0

数据集结构

数据集在Hugging Face平台的组织结构如下：

data/ ├── 3_back/ │ ├── 006_0.jpg │ ├── 006_1.jpg │ ├── 006_2.jpg │ ├── 006_prompt.txt │ ├── 014_0.jpg │ ├── 014_1.jpg │ ├── 014_2.jpg │ ├── 014_prompt.txt │ └── ... ├── 3_global/ │ └── ... ├── 3_local/ │ └── ... └── ...

数据获取方式

bash git clone https://huggingface.co/datasets/kohsei/MultiBanana-Benchmark ./data

评估方法

生成的图像需保存在相同目录下，文件名添加_generated后缀
支持两种评估模型：
- Gemini：使用Google GenAI SDK的gemini-2.5-flash模型
- GPT：使用OpenAI SDK的gpt-5模型

评估执行命令

bash

Gemini评估

python judge.py --base_dir ./data --model gemini --batch_size 32 --output_dir ./results

GPT评估

python judge.py --base_dir ./data --model gpt --batch_size 32 --output_dir ./results

引用信息

bibtex @inproceedings{oshima2025multibanana, title={MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation}, author={Yuta Oshima and Daiki Miyake and Kohsei Matsutani and Yusuke Iwasawa and Masahiro Suzuki and Yutaka Matsuo and Hiroki Furuta}, year={2025} eprint={}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={}, }

搜集汇总

数据集介绍

构建方式

在文本到图像生成领域，MultiBanana数据集通过系统化的结构设计构建而成。该数据集采用分层目录组织方式，将图像与对应文本提示分别存储于不同子文件夹中，每个场景包含多张参考图像及对应的文本描述文件。这种构建模式确保了数据的一致性与可扩展性，为多参考评估提供了结构化基础。数据采集过程注重多样性与挑战性，涵盖局部、全局及背景等多个视觉维度，形成具有层次化的评测体系。

特点

作为多参考文本到图像生成的基准测试集，MultiBanana展现出鲜明的技术特性。数据集包含丰富的视觉场景，每个提示对应多张高质量参考图像，有效模拟真实生成任务中的多样性需求。其独特之处在于细分为局部、全局和背景三大评估维度，全面检验生成模型在不同空间尺度上的表现。该基准特别强调挑战性，通过精心设计的视觉语义对应关系，推动生成模型在复杂场景下的性能突破。

使用方法

针对该数据集的实际应用，研究者可通过克隆仓库快速获取完整数据。评估流程设计科学严谨，要求将生成图像与原始数据并列存储，保持文件结构的完整性。系统支持主流大语言模型作为评估引擎，通过环境变量配置API密钥后，执行标准化评测脚本即可获得量化结果。输出文件自动记录模型在各维度上的表现，为横向比较提供可靠依据，整个流程实现了端到端的自动化评估。

背景与挑战

背景概述

MultiBanana数据集由松尾实验室团队于2025年推出，聚焦于多参考文本到图像生成这一前沿领域。该基准通过构建包含局部、全局及背景三个维度的多模态数据，旨在解决生成模型在复杂语义理解与多样化视觉表达之间的协调问题。其创新性地引入多参考评估框架，为生成式人工智能在细粒度语义对齐与视觉多样性方面的研究提供了重要支撑，推动了文本到图像生成技术向更高层次发展。

当前挑战

多参考文本到图像生成领域面临的核心挑战在于模型需同时满足语义准确性与视觉多样性要求，既要精确捕捉文本描述的细微差异，又要生成具有显著区分度的图像变体。数据构建过程中，需克服多维度标注一致性难题，包括局部细节、全局构图与背景元素的协调标注，同时确保评估体系能有效量化生成结果与多参考图像之间的语义对齐度与视觉创新性。

常用场景

经典使用场景

在文本到图像生成领域，MultiBanana数据集作为多参考基准测试平台，其经典应用体现在评估生成模型对复杂语义指令的多样化视觉表达能力。该数据集通过提供同一文本提示对应的多幅真实图像，使研究者能够系统分析模型在保持语义一致性的同时生成视觉多样性输出的能力，尤其适用于对比不同模型在细粒度属性控制与风格变化方面的性能差异。

实际应用

MultiBanana在实际工业场景中展现出重要价值，特别是在个性化内容生成与创意设计领域。广告行业可借助该基准优化产品展示系统，实现基于单一文本描述生成多组风格各异的宣传素材；教育科技领域则能通过其多参考特性开发交互式学习工具，为同一知识点生成视觉解释的多种变体，有效增强知识传递的适应性与包容性。

衍生相关工作

基于该数据集衍生的经典研究包括多模态对齐算法的创新与评估范式的革新。众多研究者利用其层次化评估框架开发了新型注意力机制，显著提升了生成模型对复合语义的解析能力；同时催生了基于大语言模型的自动评估体系，通过Gemini与GPT等先进模型实现生成质量的细粒度量化，推动了文本到图像生成技术评估标准的演进与统一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集