AMBER

arXiv2024-02-23 更新2024-06-21 收录

下载链接：

https://github.com/junyangwang0410/AMBER

下载链接

链接失效反馈

官方服务：

资源简介：

AMBER是由北京交通大学、阿里巴巴集团和鹏城实验室联合创建的多维度基准数据集，用于评估多模态大型语言模型（MLLMs）的幻觉现象。该数据集包含1004张高质量、内容清晰的图像，这些图像未被用于训练MLLMs，确保了评估的客观性。数据集通过详细的标注，涵盖了存在性、属性和关系三种幻觉类型，支持生成和判别两种任务的评估。AMBER旨在解决现有评估方法成本高、维度不足的问题，通过提供一个低成本、高效的评估流程，帮助研究者更好地理解和改进MLLMs的性能，特别是在减少幻觉现象方面。

AMBER is a multi-dimensional benchmark dataset jointly created by Beijing Jiaotong University, Alibaba Group and Peng Cheng Laboratory for evaluating hallucination phenomena in multimodal large language models (MLLMs). The dataset contains 1,004 high-quality images with clear content, none of which have been utilized for training MLLMs, thus ensuring the objectivity of the evaluation. Through detailed annotations, it covers three types of hallucinations: existence, attribute and relationship, and supports evaluation of both generative and discriminative tasks. AMBER aims to address the limitations of high cost and insufficient dimensionality in existing evaluation approaches. By providing a low-cost and efficient evaluation pipeline, it helps researchers better understand and enhance the performance of MLLMs, particularly in mitigating hallucination phenomena.

提供机构：

北京交通大学阿里巴巴集团鹏城实验室

创建时间：

2023-11-13

搜集汇总

数据集介绍

构建方式

AMBER数据集的构建过程包括三个主要步骤：图像收集、图像标注和提示模板设计。首先，从多模态开源数据集的测试集和版权免费的图像库中收集高质量且多样化的图像，确保这些图像未被用于训练多模态大语言模型（MLLMs）。其次，对每张图像进行细致的标注，涵盖存在、属性、关系和幻觉目标对象四个方面。最后，设计用于生成和判别任务的提示模板，确保评估过程的全面性和准确性。

使用方法

使用AMBER数据集进行评估时，首先通过设计的提示模板向MLLMs提供图像和指令，获取模型的初始响应。然后，利用语言工具包提取响应中的名词，并与数据集中的标注对象进行比对，以识别幻觉对象。对于判别任务，直接判断响应中是否包含“是”或“否”。最终，通过一系列度量标准（如CHAIR、Cover、Hal和Cog）来评估模型在生成和判别任务中的表现，确保评估结果的全面性和准确性。

背景与挑战

背景概述

在多模态大语言模型（MLLMs）领域，尽管取得了显著进展，但模型在处理视觉与语言任务时仍面临幻觉问题，这可能导致有害后果。因此，评估MLLMs的幻觉问题在模型改进和实际应用部署中变得愈发重要。AMBER数据集由北京交通大学和阿里巴巴集团的研究人员于2023年创建，旨在提供一个无需依赖大型语言模型（LLMs）的多维度基准，用于评估MLLMs在生成任务和判别任务中的幻觉问题。该数据集的核心研究问题是如何在不依赖额外LLMs的情况下，高效且低成本地评估MLLMs的幻觉问题，涵盖存在性、属性和关系幻觉。AMBER的提出对MLLMs的评估方法产生了深远影响，推动了该领域的发展。

当前挑战

AMBER数据集在构建过程中面临多项挑战。首先，现有的评估方法依赖于人类或高级LLMs，导致评估成本高昂，且评估维度不足。其次，数据集的构建需要收集高质量且未用于训练MLLMs的图像，并进行全面的标注，以支持生成任务和判别任务的评估。此外，设计一个无需LLMs的评估流程也是一个技术难题。在应用层面，MLLMs在生成任务中仍存在较高的幻觉率，即使在最先进的模型中，幻觉问题依然显著。在判别任务中，模型倾向于给出肯定的回答，这表明它们容易被问题的幻觉内容误导。因此，如何有效降低MLLMs的幻觉率，特别是在生成任务和判别任务中的幻觉问题，是当前面临的主要挑战。

常用场景

经典使用场景

AMBER数据集的经典使用场景在于评估多模态大语言模型（MLLMs）中的幻觉现象。通过提供高质量的图像和详细的标注，AMBER能够对生成任务和判别任务中的存在性、属性和关系幻觉进行全面评估。其低成本和高效率的评估流程使其成为研究MLLMs幻觉问题的理想工具。

解决学术问题

AMBER数据集解决了当前多模态大语言模型评估中存在的两大问题：高评估成本和评估维度不足。通过提供一个无需依赖大语言模型（LLMs）的多维度基准，AMBER显著降低了评估成本，并扩展了评估的广度和深度，从而为MLLMs的改进和实际应用部署提供了重要支持。

实际应用

在实际应用中，AMBER数据集可用于评估和优化多模态大语言模型在视觉问答、图像描述生成等任务中的表现。通过识别和分析模型生成的幻觉内容，AMBER有助于提升模型的可靠性和准确性，从而在智能客服、自动驾驶、医疗诊断等领域发挥重要作用。

数据集最近研究