MMGenBench

github2024-11-22 更新2024-11-28 收录

下载链接：

https://github.com/lerogo/MMGenBench

下载链接

链接失效反馈

官方服务：

资源简介：

MMGenBench是一个用于评估大型多模态模型（LMMs）从文本到图像生成能力的数据集。它包括MMGenBench-Test和MMGenBench-Domain两个子集，分别用于评估LMMs在13种不同图像模式下的表现和在生成图像领域的性能。

MMGenBench is a dataset dedicated to evaluating the text-to-image generation capabilities of large multimodal models (LMMs). It consists of two subsets: MMGenBench-Test and MMGenBench-Domain. The former is used to assess the performance of LMMs across 13 distinct image modalities, while the latter is designed to evaluate their performance in the domain of image generation.

创建时间：

2024-11-18

原始信息汇总

MMGenBench: 数据集概述

数据集简介

MMGenBench 是一个用于评估大型多模态模型（LMMs）从文本到图像生成能力的数据集。该数据集旨在通过自动化评估管道，比较原始图像与生成的图像，从而评估 LMMs 在图像生成方面的性能。

数据集结构

MMGenBench-Test: 包含13种不同的图像模式，用于评估 LMMs 在生成图像领域的性能。
MMGenBench-Domain: 专注于评估 LMMs 在生成图像领域的性能。

数据文件

数据集包含以下文件：

MMGenBench-Domain.json
MMGenBench-Domain.tsv
MMGenBench-Test-label-count.json
MMGenBench-Test-label-index.json
MMGenBench-Test.json
MMGenBench-Test.tsv
README.md
check.py

使用方法

环境安装

克隆仓库： bash git clone git@github.com:lerogo/MMGenBench.git cd MMGenBench
下载数据集： bash huggingface-cli download --repo-type dataset lerogo/MMGenBench --local-dir MMGenBench-data
安装相关环境，包括 torch, transformers, diffusers 和 unicom。

评估流程

阶段1: 在 VLMEvalKit 中适配模型并进行推理。
阶段2: 使用文本到图像生成模型处理 LMMs 的输出。
阶段3: 使用 unicom 模型提取特征并计算指标。

可视化

运行以下命令进行可视化： bash cd visual bash run.sh

引用

如果使用 MMGenBench 或相关代码，请引用以下文献： bibtex @misc{huang2024MMGenBench, title={MMGenBench: Evaluating the Limits of LMMs from the Text-to-Image Generation Perspective}, author={Hailang Huang and Yong Wang and Zixuan Huang and Huaqiu Li and Tongwen Huang and Xiangxiang Chu and Richong Zhang}, year={2024}, eprint={2411.14062}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.14062}, }

搜集汇总

数据集介绍

构建方式

MMGenBench数据集的构建基于一个创新性的自动化评估管道，旨在从图像生成的角度评估大型多模态模型（LMMs）的性能。该管道首先要求LMMs根据给定的输入图像生成图像提示，然后利用文本到图像生成模型基于这些生成的提示创建新图像。最后，通过比较原始图像与生成图像来评估LMMs的性能。此外，数据集还引入了MMGenBench-Test和MMGenBench-Domain，分别用于评估LMMs在13种不同图像模式和生成图像领域的表现。

特点

MMGenBench数据集的显著特点在于其专注于从图像生成的视角评估LMMs，填补了现有基准主要关注图像理解领域的空白。数据集包含MMGenBench-Test和MMGenBench-Domain两个子集，分别覆盖了广泛的图像模式和生成图像领域，确保了评估的全面性和多样性。此外，数据集的设计考虑了自动化和高效性，使得大规模评估成为可能，从而为LMMs的性能提升提供了有力的数据支持。

使用方法

使用MMGenBench数据集进行评估时，首先需要克隆GitHub仓库并下载数据集。接着，安装必要的依赖环境，包括torch、transformers、diffusers和unicom。随后，通过VLMEvalKit适配模型并进行推理，生成图像提示。接下来，利用文本到图像生成模型处理这些提示，生成新图像。最后，使用unicom模型提取原始图像和生成图像的特征，并计算评估指标。整个过程通过脚本自动化执行，确保了评估的高效性和可重复性。

背景与挑战

背景概述

MMGenBench数据集由Hailang Huang、Yong Wang、Zixuan Huang、Huaqiu Li、Tongwen Huang、Xiangxiang Chu和Richong Zhang等研究人员于2024年创建，主要由北京航空航天大学、阿里巴巴集团和清华大学合作开发。该数据集的核心研究问题在于评估大型多模态模型（LMMs）在文本到图像生成任务中的性能，填补了现有基准主要关注图像理解而非图像生成评估的空白。MMGenBench通过引入自动化评估流程，比较原始图像与生成图像的差异，旨在揭示当前LMMs在图像理解和描述任务中的不足，并为未来模型优化提供方向。

当前挑战

MMGenBench在构建过程中面临多重挑战。首先，设计一个能够全面评估LMMs在图像生成任务中性能的基准，需要克服数据多样性和复杂性的问题。其次，实现从文本到图像生成模型的无缝集成，确保生成图像的质量和相关性，是一个技术上的挑战。此外，评估生成的图像与原始图像之间的差异，需要开发新的度量标准和方法，以准确反映模型的性能。最后，确保评估流程的高效性和可重复性，以便于广泛应用和验证，也是该数据集面临的重要挑战。

常用场景

经典使用场景

在多模态模型（LMMs）的评估领域，MMGenBench数据集以其独特的视角，专注于从文本到图像生成的角度来评估LMMs的性能。该数据集通过一个自动化评估流程，要求LMMs根据给定的输入图像生成图像提示，然后利用文本到图像生成模型基于这些提示创建新图像，最终通过比较原始图像与生成图像来评估LMMs的表现。这一流程不仅涵盖了13种不同的图像模式，还特别针对生成图像领域的性能进行了评估，为LMMs的优化提供了宝贵的见解。

解决学术问题

MMGenBench数据集解决了现有评估基准主要关注图像理解而忽视图像生成能力的问题。通过引入MMGenBench-Test和MMGenBench-Domain两个子集，该数据集全面评估了LMMs在生成图像领域的性能，揭示了当前LMMs在图像理解和描述方面的不足。这一发现不仅为学术界提供了新的研究方向，也为未来模型的优化提供了明确的路径，具有重要的学术意义和影响。

衍生相关工作

基于MMGenBench数据集，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了新的图像生成算法，显著提升了生成图像的质量和多样性。同时，也有学者基于MMGenBench的评估结果，提出了新的模型优化策略，进一步推动了多模态模型的发展。这些衍生工作不仅丰富了图像生成领域的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集