five

ImagenWorld-model-outputs

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/ImagenWorld-model-outputs
下载链接
链接失效反馈
官方服务:
资源简介:
ImagenWorld是一个大规模基准,旨在现实的多模态场景中评估图像生成和编辑模型。它涵盖六个不同的任务和六个内容领域,提供了一个统一的框架来评估模型的组合性、指令遵循能力和多模态能力。该数据集包含了所有任务的模型生成输出,每个样本对应于一个条件集,包括输入条件和多个模型的生成输出。
创建时间:
2025-10-14
原始信息汇总

ImagenWorld – Model Outputs 数据集概述

数据集简介

ImagenWorld是一个大规模基准测试数据集,旨在真实多模态场景中评估图像生成和编辑模型。该数据集涵盖六个多样化任务和六个内容领域,为评估模型组合性、指令遵循能力和多模态能力提供统一框架。

数据集访问方式

Python下载

python from huggingface_hub import snapshot_download import zipfile from pathlib import Path

local_path = snapshot_download( repo_id="TIGER-Lab/ImagenWorld-model-outputs", repo_type="dataset", local_dir="ImagenWorld-model-outputs", local_dir_use_symlinks=False, )

for zip_file in Path(local_path).glob("*.zip"): target_dir = Path(local_path) / zip_file.stem target_dir.mkdir(exist_ok=True) with zipfile.ZipFile(zip_file, "r") as zf: zf.extractall(target_dir)

命令行下载

bash hf dataset download TIGER-Lab/ImagenWorld-model-outputs --repo-type dataset --local-dir ImagenWorld-model-outputs cd ImagenWorld-model-outputs && for f in *.zip; do d="${f%.zip}"; mkdir -p "$d"; unzip -q "$f" -d "$d"; done

数据集结构

数据集以压缩文件夹形式组织,每个任务一个文件夹:

ImagenWorld-model-outputs/ │ ├── TIG/ │ ├── TIG_A_000001/ │ │ ├── input/ │ │ │ ├── metadata.json │ │ │ ├── 1.png │ │ │ └── ... │ │ └── model_output/ │ │ ├── sdxl.png │ │ ├── gpt-image-1.png │ │ ├── gemini.png │ │ └── ... │ └── ... │ ├── TIE/ ├── SRIG/ ├── SRIE/ ├── MRIG/ └── MRIE/

包含模型

TIG (文本到图像生成)

SDXL、Infinity、Janus Pro、GPT-Image-1、UNO、BAGEL、Gemini 2.0 Flash、OmniGen 2、Flux.1-Krea-dev、Qwen-Image、Nano Banana

TIE (文本+图像编辑)

InstructPix2Pix、GPT-Image-1、BAGEL、Step1X-Edit、IC-Edit、Gemini 2.0 Flash、OmniGen 2、Flux.1-Kontext-dev、Nano Banana

SRIG (单参考图像生成)

GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、UNO、Nano Banana

SRIE (单参考图像编辑)

GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、Nano Banana

MRIG (多参考图像生成)

GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、UNO、Nano Banana

MRIE (多参考图像编辑)

GPT-Image-1、Gemini 2.0 Flash、OmniGen 2、BAGEL、Nano Banana

任务概述

任务 名称 描述
TIG 文本到图像生成 从纯文本描述生成图像
TIE 文本和图像编辑 基于文本指令编辑给定图像
SRIG 单参考图像生成 使用单个参考图像和文本提示生成图像
SRIE 单参考图像编辑 使用文本提示和单个参考编辑图像
MRIG 多参考图像生成 使用多个参考和文本生成图像
MRIE 多参考图像编辑 使用多个参考和文本编辑图像

视觉领域

每个任务涵盖六个视觉领域:

  1. 艺术作品 (A)
  2. 真实感图像 (P)
  3. 信息图形 (I)
  4. 文本图形 (T)
  5. 计算机图形 (C)
  6. 屏幕截图 (S)

相关数据集

组件 描述 仓库地址
条件集 输入提示、元数据和参考图像 https://huggingface.co/datasets/TIGER-Lab/ImagenWorld
标注集 包含训练和测试分割 https://huggingface.co/datasets/TIGER-Lab/ImagenWorld-annotated-set

引用信息

bibtex @misc{imagenworld2025, title = {ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks}, author = {Samin Mahdizadeh Sani and Max Ku and Nima Jamali and Matina Mahdizadeh Sani and Paria Khoshtab and Wei-Chieh Sun and Parnian Fazel and Zhi Rui Tam and Thomas Chong and Edisy Kin Wai Chan and Donald Wai Tong Tsang and Chiao-Wei Hsu and Ting Wai Lam and Ho Yin Sam Ng and Chiafeng Chu and Chak-Wing Mak and Keming Wu and Hiu Tung Wong and Yik Chun Ho and Chi Ruan and Zhuofeng Li and I-Sheng Fang and Shih-Ying Yeh and Ho Kei Cheng and Ping Nie and Wenhu Chen}, year = {2025}, doi = {10.5281/zenodo.17344183}, url = {https://zenodo.org/records/17344183}, projectpage = {https://tiger-ai-lab.github.io/ImagenWorld/}, blogpost = {https://blog.comfy.org/p/introducing-imagenworld}, note = {Community-driven dataset and benchmark release, Temporarily archived on Zenodo while arXiv submission is under moderation review.}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在图像生成与编辑模型评估领域,ImagenWorld-model-outputs数据集通过系统化的任务框架构建而成。该数据集以条件集为基础,针对六类核心任务——包括文本到图像生成、图像编辑及多参考图像处理等——分别收集了多种前沿模型的生成结果。每个样本均包含原始输入条件与对应模型输出,通过统一的文件夹结构组织,确保数据的一致性与可追溯性。
特点
作为多模态评估的重要资源,该数据集覆盖六大视觉领域,涵盖艺术作品、摄影图像及信息图表等多样化内容。其独特之处在于整合了十余种主流生成模型的输出,如SDXL、GPT-Image-1与Gemini等,形成跨任务横向对比的基础。数据集通过分领域、分模型的清晰目录结构,为研究者提供了细粒度的性能分析维度,充分体现了真实场景下模型组合性与指令遵循能力的评估需求。
使用方法
研究者可通过HuggingFace Hub直接下载该数据集的压缩包,利用Python脚本或命令行工具进行解压与本地部署。解压后的目录按任务类型分层存储,每个任务文件夹内包含输入条件与模型输出两个子目录。用户可通过解析metadata.json获取任务元数据,并对比不同模型在同一条件下的生成效果,从而实现定量与定性相结合的综合评估。
背景与挑战
背景概述
在人工智能视觉生成技术快速演进的背景下,TIGER-Lab团队于2025年推出了ImagenWorld模型输出数据集,旨在构建一个系统化评估图像生成与编辑模型性能的基准框架。该数据集覆盖文本到图像生成、多模态图像编辑等六大核心任务,并跨越艺术作品、信息图表等六个视觉领域,通过统一的结构化条件集与多模型输出对比,为研究社区提供了评估模型组合能力与指令遵循度的标准化平台。其创新性在于将开放域任务与可解释的人类评估相结合,推动了生成式人工智能在复杂现实场景中的可靠性研究。
当前挑战
该数据集致力于解决多模态图像生成领域的两大核心挑战:一是模型在跨领域任务中保持语义一致性与视觉质量的平衡问题,尤其在处理多参考图像融合时易出现风格冲突与内容失真;二是构建过程中面临的条件集设计复杂性,需确保六类视觉域样本的分布均衡性及评估指标的可扩展性。此外,大规模人类标注的协调与多模型输出对齐亦对数据集的标准化提出了严峻考验。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,ImagenWorld模型输出数据集为多模态任务评估提供了标准化基准。该数据集通过整合文本到图像生成、图像编辑等六大任务,覆盖艺术创作、摄影图像等六大视觉领域,成为衡量模型组合能力与指令遵循度的核心工具。研究人员可借助其结构化输出结果,系统比较不同生成模型在复杂语义理解与视觉表达上的性能差异。
衍生相关工作
基于该数据集衍生的经典研究包括多模态模型鲁棒性分析框架、视觉指令遵循能力的层次化评估体系等。众多团队通过对比不同模型在相同条件集下的输出差异,提出了改进注意力机制的新方法,亦有研究利用其跨领域数据构建了生成模型的域适应能力评估标准,这些工作共同丰富了生成式AI的可解释性研究体系。
数据集最近研究
最新研究方向
在生成式人工智能蓬勃发展的背景下,ImagenWorld模型输出数据集为多模态图像生成与编辑领域提供了系统化评估基准。当前研究聚焦于探索模型在复杂真实场景下的组合推理能力与指令遵循精度,通过六类核心任务和跨域视觉内容构建了多维评估体系。前沿工作正深入分析生成模型在艺术创作、信息图形合成等专业领域的语义对齐质量,同时关注多参考图像融合技术对创意表达的增强作用。该数据集通过标准化输出对比,显著推动了可控生成技术的可解释性研究,并为下一代视觉智能系统的鲁棒性优化提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作