Multi-task Multicriteria Human Evaluation (MMHE)

Name: Multi-task Multicriteria Human Evaluation (MMHE)
Creator: 东京科学研究所, MBZUAI
Published: 2024-12-19 16:03:16
License: 暂无描述

arXiv2024-12-19 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.14613v1

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-task Multicriteria Human Evaluation (MMHE)数据集由东京科学研究所和MBZUAI创建，包含18000条专家人类判断，涵盖四个视觉语言任务和五个评估标准。数据集内容包括引用表达生成、视觉问答、视觉文档理解和图像描述生成等任务。数据集的创建过程包括从现有数据集中选择源数据、使用先进的视觉语言模型生成目标文本，并由专家进行评估。该数据集主要用于评估自动评估指标与人类判断的一致性，旨在提高视觉语言模型的可靠性和鲁棒性。

The Multi-task Multicriteria Human Evaluation (MMHE) dataset was created by the Tokyo Science Research Institute and MBZUAI. It contains 18,000 expert human judgments, covering four visual-language tasks and five evaluation criteria. The dataset encompasses tasks including referring expression generation, visual question answering, visual document understanding, and image captioning. The development process of the dataset involves selecting source data from existing datasets, generating target texts using cutting-edge visual-language models, and conducting expert evaluations. This dataset is primarily used to evaluate the consistency between automatic evaluation metrics and human judgments, aiming to improve the reliability and robustness of visual-language models.

提供机构：

东京科学研究所, MBZUAI

创建时间：

2024-12-19

搜集汇总

数据集介绍

构建方式

Multi-task Multicriteria Human Evaluation (MMHE) 数据集的构建过程分为三个主要步骤。首先，从现有的数据集中选择输入文本和图像，包括RefCOCO、OK-VQA、VisualMRC和MSCOCO。其次，使用先进的视觉语言模型（VLMs）生成目标文本，涵盖了LLaVA、InstructBLIP、Qwen-VL、CogVLM和GPT-4o等多种模型。最后，由五位专家对生成的目标文本进行人工评估，每个文本由三位专家独立评分，确保评估的客观性和一致性。整个数据集包含18,000条专家评分，覆盖了四个视觉语言任务和五个评估标准。

特点

MMHE数据集的特点在于其多任务、多标准的评估框架。数据集涵盖了四个视觉语言任务：指代表达生成（REG）、视觉问答（VQA）、视觉文档理解（VDU）和图像描述（IC）。每个任务都基于五个评估标准进行评分，包括正确性、完整性、清晰度、流畅性和简洁性。这种多标准的评估方式使得数据集能够更全面地反映生成文本的质量，尤其是在不同任务和标准下的表现。此外，数据集中的每个文本都由三位专家独立评分，确保了评估结果的可靠性和一致性。

使用方法

MMHE数据集的主要用途是作为自动评估视觉语言模型生成文本质量的基准。研究人员可以使用该数据集来验证和比较不同评估指标与人类判断之间的相关性。具体来说，数据集可以用于训练和测试自动评估模型，如HarmonicEval，以提升其在多任务、多标准下的评估能力。此外，数据集还可以用于分析现有评估指标在不同任务和标准下的表现，帮助识别和改进评估指标的不足之处。通过使用MMHE数据集，研究人员可以更全面地理解视觉语言模型的生成能力，并推动自动评估技术的发展。

背景与挑战

背景概述

Multi-task Multicriteria Human Evaluation (MMHE) 数据集由东京科学研究所和MBZUAI的研究团队于2024年创建，旨在解决视觉语言模型（VLMs）生成文本的自动评估问题。随着VLMs在图像描述生成和视觉问答等任务中的广泛应用，现有的评估指标往往仅关注文本的整体质量，而忽略了具体评价标准的细粒度分析。MMHE数据集包含18,000条专家人工评估，涵盖了四个视觉语言任务和五个评价标准，如正确性、完整性、清晰度、流畅性和简洁性。该数据集的构建为自动评估指标与人类判断之间的对齐提供了全面的基准，推动了VLMs在生成文本质量评估方面的研究。

当前挑战

MMHE数据集面临的挑战主要体现在两个方面。首先，现有的自动评估指标往往无法从整体评分中识别出文本的具体缺陷，例如清晰度或流畅性方面的不足，导致评估结果缺乏解释性和全面性。其次，在构建数据集的过程中，如何确保专家评估的一致性和准确性是一个重要挑战。由于评价标准涉及多个维度，专家在评估时可能对某些标准的理解存在差异，进而影响数据的可靠性。此外，数据集的规模扩展也面临挑战，因为大规模的人工评估需要大量的时间和资源，且难以保证每个评估者都能严格遵循评分标准。

常用场景

经典使用场景

Multi-task Multicriteria Human Evaluation (MMHE) 数据集在视觉-语言模型（VLMs）的自动评估中扮演了关键角色，尤其是在图像描述生成（IC）、视觉问答（VQA）、视觉文档理解（VDU）和指代表达生成（REG）等任务中。该数据集通过提供多任务、多标准的专家人工评估，为研究者提供了一个全面的基准，用于验证自动评估指标与人类判断之间的一致性。MMHE 数据集的使用场景主要集中在评估 VLMs 生成的文本质量，特别是在需要细粒度评估的复杂任务中。

衍生相关工作

MMHE 数据集的发布催生了一系列相关研究工作，尤其是在多任务、多标准的自动评估领域。例如，基于 MMHE 数据集，研究者提出了 HarmonicEval 这一无参考评估指标，通过自下而上的方式聚合多标准评分，显著提升了与人类判断的相关性。此外，MMHE 数据集还启发了其他多标准评估方法的研究，如 FLEUR 和 CLIPScore 等，这些方法在视觉-语言任务的评估中表现出色。MMHE 数据集的广泛应用推动了视觉-语言模型评估技术的多样化和精细化。

数据集最近研究