TIGER-Lab/ImagenWorld-annotated-set

Name: TIGER-Lab/ImagenWorld-annotated-set
Creator: TIGER-Lab
Published: 2026-04-14 03:57:36
License: 暂无描述

Hugging Face2026-04-14 更新2025-10-18 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/ImagenWorld-annotated-set

下载链接

链接失效反馈

官方服务：

资源简介：

ImagenWorld是一个大规模的图像生成和编辑模型评估基准，包含六个任务和六个领域。它提供了一个统一的框架，用于评估模型的组合性、指令遵循和多媒体推理能力。该数据集包括经过人工评估的模型生成输出，分为训练集和测试集。训练集包含人工标注，而测试集则没有标注。

ImagenWorld is a large-scale benchmark for evaluating image generation and editing models across six tasks and six domains. It provides a unified framework for assessing model compositionality, instruction following, and multimodal reasoning. The dataset includes human-evaluated model-generated outputs, split into a training set with annotations and a test set without manual evaluation.

提供机构：

TIGER-Lab

搜集汇总

数据集介绍

构建方式

在图像生成与编辑模型评估领域，ImagenWorld-annotated-set的构建体现了严谨的实证研究范式。该数据集通过整合六个核心任务与六个现实世界领域，构建了一个统一的多模态评估框架。其训练集部分纳入了详尽的人工标注流程，由三位独立标注员对每个模型生成的输出进行系统评估，标注内容涵盖对象级、片段级及评分制反馈，并可选生成错误掩码以精确定位生成缺陷。测试集则作为未标注的补充部分，保留了相同的任务与领域结构，确保了评估的全面性与可扩展性。

特点

该数据集的核心特征在于其多层次、可解释的人工评估体系。它不仅提供了模型输出的原始图像，还附带了基于Set-of-Marks模型生成的视觉分割图及对应的像素级映射数据，为错误定位与结构化分析提供了细粒度支持。数据集严格区分了包含人工标注的训练集与仅含模型输出的测试集，这种设计既支持有监督的模型诊断与比较，也为开放式的基准测试保留了空间。其评估维度覆盖了组合性、指令遵循与多模态推理能力，从而能够对生成模型在复杂真实场景下的性能进行深度剖析。

使用方法

研究人员可通过Hugging Face Hub便捷获取该数据集，其以按任务分组的压缩文件夹形式组织。下载后，需分别对训练集与测试集中的每个任务压缩包进行解压，以还原完整的目录层级。使用过程中，可重点解析训练集内各模型输出目录下的评估文件、错误掩码及分割图谱，结合输入元数据，系统分析模型在不同任务上的表现。测试集则适用于模型输出的自动化评估或作为未来标注工作的基础。数据集的结构化设计便于集成到现有的评估流程中，支持对图像生成模型进行大规模、可复现的基准测试。

背景与挑战

背景概述

在生成式人工智能迅猛发展的浪潮中，图像生成与编辑模型的评估长期面临缺乏统一、全面基准的困境。ImagenWorld数据集应运而生，由TIGER-AI实验室于2026年创建，旨在为评估模型在开放、真实世界多模态场景下的性能提供一个大规模、结构化的基准。该数据集的核心研究问题聚焦于如何系统性地衡量模型在组合性、指令遵循及多模态推理等方面的能力，其涵盖六个任务与六个领域的框架设计，为深入理解模型在复杂、开放式任务中的行为与局限奠定了重要基础，对推动生成式AI的可解释性与可靠性研究具有显著影响力。

当前挑战

ImagenWorld数据集致力于解决图像生成与编辑模型在开放世界任务中性能评估的挑战，其核心在于如何量化模型对复杂、组合性指令的理解与执行能力，以及如何客观衡量生成结果在语义一致性、细节准确性和审美质量等多维度的表现。在构建过程中，挑战同样显著：为确保评估的可靠性与可解释性，数据集引入了大规模人工标注，这带来了高昂的成本与标注者间主观性差异的管理难题；同时，设计一套能够覆盖多样化现实场景、平衡任务难度并支持细粒度错误定位（如通过区域掩码）的评估框架，也对数据集的系统架构与标注流程提出了极高的技术要求。

常用场景

经典使用场景

在图像生成与编辑模型评估领域，ImagenWorld-annotated-set作为大规模基准数据集，其经典使用场景在于为多模态生成模型提供系统性的压力测试。该数据集通过涵盖文本到图像生成、图像编辑、单参考与多参考推理等六项任务，构建了一个统一框架，使研究者能够深入评估模型在复杂真实场景下的组合性、指令遵循能力以及多模态推理性能。借助其包含的人类标注数据，研究人员可以定量分析模型输出与人类期望之间的差距，从而推动生成模型在开放世界任务中的稳健性发展。

解决学术问题

该数据集有效解决了图像生成研究中长期存在的评估标准化难题。传统评估往往依赖自动化指标，难以捕捉生成内容在语义一致性、细节准确性和审美质量上的细微缺陷。ImagenWorld-annotated-set通过引入细粒度的人类标注，包括对象级和片段级评分以及错误区域掩码，为模型失败模式提供了可解释的分析基础。这不仅促进了评估方法从粗粒度分数向细粒度归因的转变，也为理解模型在组合推理、空间关系处理等核心能力上的局限性提供了实证依据，从而推动了生成模型评估范式的演进。

衍生相关工作

围绕ImagenWorld-annotated-set，学术界已衍生出一系列经典研究工作。这些工作主要集中于利用其丰富的人类标注数据，开发新的评估指标、构建自动化评估代理，以及训练能够预测人类偏好的奖励模型。部分研究进一步探索了如何将数据集中的错误掩码和分段信息用于指导生成模型的对抗性训练或强化学习，以直接提升模型在易错区域的生成质量。同时，该数据集也常被用作基准，用于比较不同模型架构（如扩散模型与自回归模型）在复杂多模态任务上的性能，推动了图像生成技术的前沿探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集