Meta-evaluation Benchmark|文本到图像生成数据集|模型评估数据集

arXiv2024-11-23 更新2024-11-27 收录

文本到图像生成

模型评估

下载链接：

https://github.com/maziao/T2I-Eval

下载链接

链接失效反馈

资源简介：

Meta-evaluation Benchmark是由北京理工大学计算机科学与技术学院创建的一个用于评估文本到图像生成质量的基准数据集。该数据集包含了对生成图像的视觉外观、内在属性和关系属性的详细评分和解释。数据集的创建过程包括使用GPT-4o进行任务分解，生成高质量的训练数据，并通过手动注释来确保评估的可靠性和全面性。该数据集主要应用于自动评估文本到图像生成模型的质量，旨在解决现有评估方法在高成本和复杂性方面的局限性。

提供机构：

北京理工大学计算机科学与技术学院

创建时间：

2024-11-23

AI搜集汇总

数据集介绍

构建方式

Meta-evaluation Benchmark 数据集的构建基于一个创新的任务分解评估框架。该框架首先利用 GPT-4o 从输入文本中提取实体及其内在属性和关系属性，然后将复杂的评估任务分解为三个子任务：视觉外观、内在属性和关系属性。GPT-4o 根据图像和其描述回答每个问题，并与从输入文本中提取的基准进行比较，生成详细的解释和质量评分。通过这种方式，数据集不仅包含了图像和文本对，还包含了详细的评估内容和评分，为训练开源多模态大语言模型（MLLM）提供了高质量的训练数据。

特点

Meta-evaluation Benchmark 数据集的主要特点在于其精细的评估内容和详细的评分机制。数据集中的每个样本都包含了从输入文本中提取的实体、属性和关系，以及针对这些内容的详细问题和答案。此外，数据集还包含了由 GPT-4o 生成的详细解释和评分，这些解释和评分不仅涵盖了视觉外观，还包括了内在属性和关系属性的评估。这种精细的评估方式使得数据集能够全面、准确地评估生成图像的质量。

使用方法

Meta-evaluation Benchmark 数据集主要用于训练和评估开源多模态大语言模型（MLLM）在文本到图像生成任务中的自动评估能力。研究人员可以使用该数据集来微调现有的 MLLM，以提高其在评估生成图像质量方面的表现。此外，数据集还可以用于验证和比较不同评估方法的性能，通过与人类注释的基准进行对比，评估模型的评估结果与人类判断的一致性。通过这种方式，数据集为开发更准确、更可靠的文本到图像生成评估模型提供了宝贵的资源。

背景与挑战

背景概述

随着扩散模型在文本到图像生成领域的显著进展，自动评估生成图像质量的需求日益迫切。Meta-evaluation Benchmark数据集由北京理工大学的计算机科学与技术学院创建，主要研究人员包括Rong-Cheng Tu、Zi-Ao Ma等。该数据集的核心研究问题是如何在降低成本的前提下，利用开源的多模态大语言模型（MLLMs）进行高效的图像质量评估。通过将复杂的评估任务分解为更简单的子任务，并设计创新的训练策略，该数据集旨在将GPT-4o的评估能力有效地迁移到开源MLLMs中，从而在保持评估准确性的同时，降低大规模评估的成本。

当前挑战

Meta-evaluation Benchmark数据集在构建过程中面临多项挑战。首先，如何有效地将复杂的评估任务分解为更简单的子任务，以降低开源MLLMs的学习难度，是一个关键问题。其次，在训练过程中，如何平衡不同子任务的数据分布，以确保模型能够全面学习各个评估维度，也是一个重要挑战。此外，数据集中评分分布的不平衡问题，可能导致模型在评估时倾向于高评分，影响评估的公正性和准确性。最后，如何在保证评估质量的同时，降低对商业模型的依赖，提高评估的可扩展性和经济性，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

Meta-evaluation Benchmark 数据集在文本到图像生成任务的自动评估中发挥了关键作用。该数据集通过分解复杂的评估任务为多个子任务，从而构建了一个高质量的训练数据集。具体而言，该数据集利用 GPT-4o 提取实体及其内在属性和关系属性，并生成详细的问题和答案，最终通过解释和评分来评估生成图像的质量。这种分解方法显著降低了评估任务的复杂性，使得开源的多模态大语言模型（MLLM）能够更有效地进行图像质量评估。

实际应用

Meta-evaluation Benchmark 数据集在实际应用中具有广泛的前景。例如，在内容生成领域，该数据集可以用于自动评估生成图像的质量，确保生成的图像符合输入文本的描述，从而提升用户体验。此外，在广告和媒体行业，该数据集可以用于自动筛选和优化广告图像，确保广告内容的高质量和一致性。通过这些实际应用，该数据集不仅提升了生成模型的性能，还推动了相关行业的自动化和智能化进程。

衍生相关工作

Meta-evaluation Benchmark 数据集的提出催生了一系列相关研究工作。例如，基于该数据集的训练策略，研究者们开发了多种开源 MLLM 的优化方法，显著提升了这些模型在图像质量评估任务中的表现。此外，该数据集还促进了多模态数据处理和评估框架的研究，推动了文本到图像生成领域的技术进步。通过这些衍生工作，Meta-evaluation Benchmark 不仅为学术研究提供了丰富的资源，还为实际应用奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

poi

本项目收集国内POI兴趣点，当前版本数据来自于openstreetmap。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题，任务是提供准确的自然语言答案。反映许多现实世界的场景，例如帮助视障人士，问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域，包括背景细节和底层上下文。因此，与生成通用图像说明的系统相比，在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外，VQA 适合自动评估，因为许多开放式答案仅包含几个单词或一组封闭的答案，可以以多项选择的形式提供。我们提供了一个数据集包含 100，000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线，并与人类表现进行了比较。

OpenDataLab 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录

Movies Dataset

这个数据集包含电影的详细信息，包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。

github 收录