ImagenWorld-model-outputs
收藏ImagenWorld – Model Outputs 数据集概述
数据集简介
ImagenWorld是一个大规模基准测试数据集,旨在真实多模态场景中评估图像生成和编辑模型。该数据集涵盖六个多样化任务和六个内容领域,为评估模型组合性、指令遵循能力和多模态能力提供统一框架。
数据集访问方式
Python下载
python from huggingface_hub import snapshot_download import zipfile from pathlib import Path
local_path = snapshot_download( repo_id="TIGER-Lab/ImagenWorld-model-outputs", repo_type="dataset", local_dir="ImagenWorld-model-outputs", local_dir_use_symlinks=False, )
for zip_file in Path(local_path).glob("*.zip"): target_dir = Path(local_path) / zip_file.stem target_dir.mkdir(exist_ok=True) with zipfile.ZipFile(zip_file, "r") as zf: zf.extractall(target_dir)
命令行下载
bash hf dataset download TIGER-Lab/ImagenWorld-model-outputs --repo-type dataset --local-dir ImagenWorld-model-outputs cd ImagenWorld-model-outputs && for f in *.zip; do d="${f%.zip}"; mkdir -p "$d"; unzip -q "$f" -d "$d"; done
数据集结构
数据集以压缩文件夹形式组织,每个任务一个文件夹:
ImagenWorld-model-outputs/ │ ├── TIG/ │ ├── TIG_A_000001/ │ │ ├── input/ │ │ │ ├── metadata.json │ │ │ ├── 1.png │ │ │ └── ... │ │ └── model_output/ │ │ ├── sdxl.png │ │ ├── gpt-image-1.png │ │ ├── gemini.png │ │ └── ... │ └── ... │ ├── TIE/ ├── SRIG/ ├── SRIE/ ├── MRIG/ └── MRIE/
包含模型
TIG (文本到图像生成)
SDXL、Infinity、Janus Pro、GPT-Image-1、UNO、BAGEL、Gemini 2.0 Flash、OmniGen 2、Flux.1-Krea-dev、Qwen-Image、Nano Banana
TIE (文本+图像编辑)
InstructPix2Pix、GPT-Image-1、BAGEL、Step1X-Edit、IC-Edit、Gemini 2.0 Flash、OmniGen 2、Flux.1-Kontext-dev、Nano Banana
SRIG (单参考图像生成)
GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、UNO、Nano Banana
SRIE (单参考图像编辑)
GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、Nano Banana
MRIG (多参考图像生成)
GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、UNO、Nano Banana
MRIE (多参考图像编辑)
GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、Nano Banana
任务概述
| 任务 | 名称 | 描述 |
|---|---|---|
| TIG | 文本到图像生成 | 从纯文本描述生成图像 |
| TIE | 文本和图像编辑 | 基于文本指令编辑给定图像 |
| SRIG | 单参考图像生成 | 使用单个参考图像和文本提示生成图像 |
| SRIE | 单参考图像编辑 | 使用文本提示和单个参考编辑图像 |
| MRIG | 多参考图像生成 | 使用多个参考和文本生成图像 |
| MRIE | 多参考图像编辑 | 使用多个参考和文本编辑图像 |
视觉领域
每个任务涵盖六个视觉领域:
- 艺术作品 (A)
- 真实感图像 (P)
- 信息图形 (I)
- 文本图形 (T)
- 计算机图形 (C)
- 屏幕截图 (S)
相关数据集
| 组件 | 描述 | 仓库地址 |
|---|---|---|
| 条件集 | 输入提示、元数据和参考图像 | https://huggingface.co/datasets/TIGER-Lab/ImagenWorld |
| 标注集 | 包含训练和测试分割 | https://huggingface.co/datasets/TIGER-Lab/ImagenWorld-annotated-set |
引用信息
bibtex @misc{imagenworld2025, title = {ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks}, author = {Samin Mahdizadeh Sani and Max Ku and Nima Jamali and Matina Mahdizadeh Sani and Paria Khoshtab and Wei-Chieh Sun and Parnian Fazel and Zhi Rui Tam and Thomas Chong and Edisy Kin Wai Chan and Donald Wai Tong Tsang and Chiao-Wei Hsu and Ting Wai Lam and Ho Yin Sam Ng and Chiafeng Chu and Chak-Wing Mak and Keming Wu and Hiu Tung Wong and Yik Chun Ho and Chi Ruan and Zhuofeng Li and I-Sheng Fang and Shih-Ying Yeh and Ho Kei Cheng and Ping Nie and Wenhu Chen}, year = {2025}, doi = {10.5281/zenodo.17344183}, url = {https://zenodo.org/records/17344183}, projectpage = {https://tiger-ai-lab.github.io/ImagenWorld/}, blogpost = {https://blog.comfy.org/p/introducing-imagenworld}, note = {Community-driven dataset and benchmark release, Temporarily archived on Zenodo while arXiv submission is under moderation review.}, }




