five

ImagenWorld-annotated-set

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/ImagenWorld-annotated-set
下载链接
链接失效反馈
官方服务:
资源简介:
ImagenWorld是一个大规模的基准数据集,用于评估图像生成和编辑模型在真实多模态场景下的性能。它包括六个任务和六个领域,提供了一个统一的框架来评估模型的组合性、指令遵循性和多模态推理能力。该数据集包含人类对模型生成输出的评估,分为训练集和测试集,其中训练集包含人类注释,测试集则没有人工评估。
提供机构:
TIGER-Lab
创建时间:
2025-10-14
原始信息汇总

ImagenWorld – Annotated Set 数据集概述

数据集简介

ImagenWorld是一个大规模基准数据集,旨在评估真实多模态场景下的图像生成和编辑模型。该数据集涵盖六个任务和六个领域,为评估模型组合性、指令遵循和多模态推理提供统一框架。

数据集内容

  • 标注集:包含模型生成输出的人工评估结果
  • 数据划分:包含train和test两个划分
    • train划分包含人工标注
    • test划分仅包含剩余部分,无人工评估

数据集结构

目录结构

ImagenWorld-annotated-set/ ├── train/ │ ├── TIG.zip │ ├── TIE.zip │ ├── SRIG.zip │ ├── SRIE.zip │ ├── MRIG.zip │ └── MRIE.zip ├── test/ │ ├── TIG.zip │ ├── TIE.zip │ ├── SRIG.zip │ ├── SRIE.zip │ ├── MRIG.zip │ └── MRIE.zip

train划分结构(含人工评估)

TIG/ └── TIG_A_000001/ ├── input/ │ ├── metadata.json │ ├── 1.png │ └── ... └── outputs/ ├── sdxl/ │ ├── annotator1/ │ │ ├── evaluation.json │ │ ├── error_mask.png │ │ └── ... │ ├── annotator2/ │ ├── annotator3/ │ ├── out.png │ ├── som_segments.png │ └── som_segments.npz └── gpt-image-1/ ├── ...

test划分结构(无人工评估)

TIG/ └── TIG_A_000001/ ├── input/ └── outputs/ ├── sdxl/ │ ├── out.png │ ├── som_segments.png │ └── som_segments.npz └── gpt-image-1/

文件描述

文件 描述
evaluation.json 包含标注者反馈和每个对象或片段的评分
error_mask.png 二进制掩码,突出显示错误生成的区域
som_segments.png Set-of-Marks模型生成的视觉分割图
som_segments.npz 包含与som_segments.png对应的像素到片段映射的NumPy数组
out.png 模型为此条件集生成的原始图像
metadata.json 原始条件集的输入元数据和提示

标注细节

  • 每个模型输出由三名独立标注者进行评估
  • 标注者可以选择:
    • None:未发现错误
    • All:整个图像存在严重问题
    • 或使用错误掩码标记特定区域
  • 评估包括对象级、片段级和基于分数的评分

相关数据集

组件 描述 仓库地址
Condition Set 输入提示和参考图像 https://huggingface.co/datasets/TIGER-Lab/ImagenWorld
Model Outputs 评估中使用的所有模型生成的图像 https://huggingface.co/datasets/TIGER-Lab/ImagenWorld-model-outputs

注意事项

  • train划分包含多人标注者的人工标注
  • test划分不包含人工评估
  • 所有模型均包含分割文件以支持错误定位和结构化比较
搜集汇总
数据集介绍
main_image_url
构建方式
在图像生成与编辑模型的评估领域,ImagenWorld标注集的构建采用了系统化的人工标注流程。该数据集涵盖六大任务与六大领域,通过三位独立标注员对每个模型生成结果进行多维度评估。标注过程中,标注员可选择标记无错误、整体图像存在严重问题或使用误差掩码标注特定错误区域,并辅以对象级、片段级及评分制反馈,确保评估结果的全面性与可靠性。
特点
ImagenWorld标注集的显著特点在于其结构化标注体系与多模态任务覆盖。数据集包含训练集与测试集分割,仅训练集附带人工标注,测试集则保留原始生成内容以供模型泛化能力验证。每个任务目录下均包含输入元数据、模型输出图像及Set-of-Marks分割图谱,其中误差掩码与分段映射文件为模型错误定位提供了可视化与数值化支持,形成层次分明的评估框架。
使用方法
该数据集可通过HuggingFace Hub直接获取,用户使用Python脚本或命令行工具下载压缩包后,按任务解压至指定目录即可调用。训练集包含带标注的模型输出与评估文件,适用于模型微调与人工评估研究;测试集仅保留生成图像与分割数据,适合用于模型性能基准测试。数据集支持通过元数据文件追溯生成条件,结合分段图谱可实现生成错误的细粒度分析。
背景与挑战
背景概述
ImagenWorld标注集由TIGER-Lab团队于2025年构建,旨在为多模态图像生成与编辑模型提供系统性评估基准。该数据集涵盖文本到图像生成、图像编辑等六大任务领域,通过统一框架检验模型在组合推理与指令遵循方面的能力。其创新性在于整合了人类标注员对生成结果的细粒度评估,为理解模型在开放场景下的表现提供了实证基础,推动了生成式人工智能在视觉内容创作领域的标准化进程。
当前挑战
该数据集致力于解决多模态图像生成模型在复杂真实场景中的泛化性评估难题,具体包括模型对组合指令的语义理解偏差、生成图像的逻辑一致性缺失等问题。在构建过程中,面临标注一致性的技术挑战:需协调三位独立标注员对同一生成结果进行区域级错误标注,同时处理数万张图像的分段掩码与评估数据对齐,并保证不同任务间评估标准的统一性。
常用场景
经典使用场景
在图像生成与编辑技术快速发展的背景下,ImagenWorld标注集作为大规模基准测试工具,其经典使用场景聚焦于评估多模态模型在真实世界任务中的表现。该数据集通过涵盖文本引导生成、图像编辑等六类核心任务,并跨越艺术创作、自然场景等六大领域,为研究者提供了系统化衡量模型组合能力与指令遵循水平的标准化平台。人类标注者针对模型输出进行的细粒度评估,包括对象级评分与错误区域标注,使得该数据集成为验证生成模型在复杂语境下可靠性的重要基础设施。
实际应用
在工业实践层面,该数据集为商业图像生成系统的质量管控提供了关键支撑。设计平台可利用其评估框架优化创意辅助工具的输出一致性,电子商务领域能借助其跨域评估能力提升商品图像自动生成的可靠性。医疗影像分析机构可参考其错误定位机制改进诊断图像合成流程,教育科技公司则能通过其多维度评分体系开发更精准的视觉教学内容生成系统。这些应用不仅提升了行业生产效率,更推动了生成式AI技术向可信赖方向演进。
衍生相关工作
基于该数据集衍生的经典研究呈现出多元化趋势。在评估方法论层面,研究者开发了结合Set-of-Marks分割图的自动评估管道,显著提升了错误检测效率。模型优化方向涌现出针对标注反馈的对抗训练策略,有效改善了生成图像的语义一致性。在系统构建方面,多个团队利用其分层标注数据构建了可视化诊断工具,为模型缺陷分析提供了新范式。这些工作共同推动了生成模型从单纯性能提升向可解释、可控制方向的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作