ISG-Bench

github2024-11-27 更新2024-11-29 收录

下载链接：

https://github.com/Dongping-Chen/ISG

下载链接

链接失效反馈

官方服务：

资源简介：

ISG-Bench数据集包含了一系列用于评估交错文本和图像生成模型的数据样本。每个样本包括一个问题（Query）和一个人工标注的黄金答案（Golden），用于评估模型在结构、块、图像和整体层面的表现。

The ISG-Bench Dataset comprises a series of data samples for evaluating interleaved text and image generation models. Each sample contains a Query and a manually annotated Golden answer, which serve to assess model performance across structural, block-level, image-level and holistic dimensions.

创建时间：

2024-11-26

原始信息汇总

Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

数据集概述

名称: Interleaved Scene Graph (ISG)
描述: 该数据集用于评估交错文本和图像生成任务，涵盖四个层次：结构、块、图像和整体。
适用领域: 多模态理解和生成任务，如Show-o和Anole。

数据集结构

文件:
- ISG-Bench.jsonl: 包含由ISG编译的基准数据，每个样本包含查询和人工标注的黄金答案。
- images: 包含查询和黄金答案中的图像，需从huggingface下载并放置在ISG_eval目录下。

数据样本示例

json { "id": "0000", "Category": "Prediction", "Query": [ { "type": "text", "content": "I will give you a picture of a person washing their hands. Please use a combination of 4 images and text to show what will happen next. Please generate an overall description first, then directly generate adjacent image blocks. For example, [whole description] <object1 image> <object2 image> <object3 image> <object4 image>." }, { "type": "image", "content": "images/0000_q1.jpg" } ], "Golden": [ { "type": "text", "content": "The person continues to scrub their hands thoroughly, with the soap lathering up. The hands are cleaned under running water, and the lather is rinsed away." }, { "type": "image", "content": "images/0000_g1.jpg" }, { "type": "image", "content": "images/0000_g2.jpg" }, { "type": "image", "content": "images/0000_g3.jpg" }, { "type": "image", "content": "images/0000_g4.jpg" } ], "predict": { "structural": { "Query": [ "<query_text1>", "<query_img1>" ], "Answer": [ "<gen_text1>", "<gen_img1>", "<gen_img2>", "<gen_img3>", "<gen_img4>" ] }, "block_tuple": { "relation": [ [ "<gen_text1>", "<query_img1>", "is an overall description of" ], ... ] }, "block_qa": { "questions": [ { "subject": "<gen_text1>", "object": "<query_img1>", "relation": "is an overall description of", "Question": "Does <gen_text1> describe this image?" }, ... ] }, "image_tuple": [ [ "entity", "hands", "<gen_img1>" ], ... ], "image_qa": { "questions": [ { "image": "<gen_img1>", "Question": "Are there hands in this image?", "id": 0, "Preliminary": [] }, ... ] } } }

评估方法

环境设置: 使用GPT-4o进行VQA，以及MLLM-as-a-Judge进行整体评估。
模型评估: 通过运行ISG-eval.py和summarize_performance.py脚本来评估自定义模型的输出。

引用

@article{chen2024interleaved, title={Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment}, author={Dongping Chen and Ruoxi Chen and Shu Pu and Zhaoyi Liu and Yanru Wu and Caixi Chen and Benlin Liu and Yue Huang and Yao Wan and Pan Zhou and Ranjay Krishna}, journal={arXiv preprint arXiv:2411.17188}, year={2024}, }

搜集汇总

数据集介绍

构建方式

ISG-Bench数据集的构建基于多层次的交错生成评估框架，涵盖结构、块、图像和整体四个评估层面。数据集通过精心设计的查询和人类标注的金标准答案，模拟了多模态理解和生成的复杂场景。每个数据样本包含一个查询和相应的金标准答案，查询部分包括文本和图像，而金标准答案则进一步细分为文本描述和图像序列。这种结构化的数据组织方式，旨在为模型提供全面的评估基准，确保其在多模态生成任务中的表现能够得到准确衡量。

特点

ISG-Bench数据集的显著特点在于其多层次的评估体系，这不仅涵盖了文本和图像的生成质量，还深入到生成内容的结构和逻辑关系。数据集中的每个样本都经过精心设计，确保查询和答案之间的紧密关联，从而能够有效评估模型在处理复杂多模态任务时的能力。此外，数据集还提供了详细的元数据和关系标注，便于研究人员进行深入分析和模型优化。

使用方法

使用ISG-Bench数据集进行模型评估时，首先需下载并配置数据集，确保所有图像和文本数据完整。随后，用户可以通过提供的Python脚本，将模型生成的结果与数据集中的金标准答案进行对比，计算各层次的评估得分。具体操作包括运行ISG-eval.py脚本进行初步评估，然后使用summarize_performance.py脚本生成最终的性能报告。此外，数据集还支持用户自定义模型的输出格式，以便进行灵活的评估和比较。

背景与挑战

背景概述

ISG-Bench数据集，全称为Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment，由Dongping Chen等人于2024年创建。该数据集旨在评估交错文本与图像生成模型的性能，特别是在多模态理解和生成领域。ISG-Bench通过四个层次的评估方法——结构、块、图像和整体，为模型提供了一个全面的测试平台。这一数据集的发布标志着在多模态生成领域研究的重要进展，为后续研究提供了宝贵的资源和基准。

当前挑战

ISG-Bench数据集在构建过程中面临多重挑战。首先，如何确保数据集在四个评估层次上的全面性和公正性是一个重要问题。其次，数据集的生成和标注需要高度专业化的知识和技能，尤其是在图像和文本的交错生成方面。此外，评估模型的性能时，如何准确衡量模型在不同层次上的表现也是一个技术难题。最后，数据集的更新和维护需要持续的投入，以确保其与最新研究进展保持同步。

常用场景

经典使用场景

ISG-Bench数据集在多模态生成与理解领域中扮演着重要角色。其经典使用场景主要集中在评估模型在结构化、块级、图像级和整体级四个层次上的交错文本与图像生成能力。通过提供丰富的图像和文本数据，ISG-Bench使研究者能够系统地分析和比较不同模型在多模态生成任务中的表现，从而推动该领域的发展。

实际应用

在实际应用中，ISG-Bench数据集被广泛用于开发和测试多模态生成模型，如图像描述生成、视觉问答系统等。这些模型在教育、医疗、娱乐等多个领域展现出巨大潜力。例如，在教育领域，通过生成与文本交错的图像，可以更生动地解释复杂概念，提升学习效果。

衍生相关工作

ISG-Bench数据集的发布催生了多项相关研究工作，如ISG-Agent框架的提出，该框架通过组合工具生成高质量的交错内容，探索了多模态生成的上限。此外，基于ISG-Bench的评估方法也被应用于其他多模态生成任务，如Show-o和Anole模型，进一步推动了多模态生成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集