MultiBanana
收藏MultiBanana 数据集概述
数据集基本信息
- 名称:MultiBanana
- 性质:多参考文本到图像生成的挑战性基准数据集
- 许可证:Apache-2.0
数据集结构
数据集在Hugging Face平台的组织结构如下:
data/ ├── 3_back/ │ ├── 006_0.jpg │ ├── 006_1.jpg │ ├── 006_2.jpg │ ├── 006_prompt.txt │ ├── 014_0.jpg │ ├── 014_1.jpg │ ├── 014_2.jpg │ ├── 014_prompt.txt │ └── ... ├── 3_global/ │ └── ... ├── 3_local/ │ └── ... └── ...
数据获取方式
bash git clone https://huggingface.co/datasets/kohsei/MultiBanana-Benchmark ./data
评估方法
- 生成的图像需保存在相同目录下,文件名添加
_generated后缀 - 支持两种评估模型:
- Gemini:使用Google GenAI SDK的
gemini-2.5-flash模型 - GPT:使用OpenAI SDK的
gpt-5模型
- Gemini:使用Google GenAI SDK的
评估执行命令
bash
Gemini评估
python judge.py --base_dir ./data --model gemini --batch_size 32 --output_dir ./results
GPT评估
python judge.py --base_dir ./data --model gpt --batch_size 32 --output_dir ./results
引用信息
bibtex @inproceedings{oshima2025multibanana, title={MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation}, author={Yuta Oshima and Daiki Miyake and Kohsei Matsutani and Yusuke Iwasawa and Masahiro Suzuki and Yutaka Matsuo and Hiroki Furuta}, year={2025} eprint={}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={}, }




