MCITEBENCH

Name: MCITEBENCH
Creator: 复旦大学数据科学上海市重点实验室，复旦大学计算机科学技术学院
Published: 2025-03-05 11:28:29
License: 暂无描述

arXiv2025-03-05 更新2025-03-06 收录

下载链接：

https://caiyuhu.github.io/MCiteBench

下载链接

链接失效反馈

官方服务：

资源简介：

MCITEBENCH是一个用于评估多模态大型语言模型在多模态引文文本生成能力的基准数据集。该数据集由来自学术论文及其审稿回复互动中的多模态内容构成，包含了丰富的信息源。数据集的构建包括从学术论文中提取多模态内容，利用审稿回复构建问答对，并通过人工标注和模型过滤确保数据质量。MCITEBENCH共有3000个样本，涵盖了单模态和混合模态的证据来源，适用于评估模型在多模态引文生成方面的性能。

MCITEBENCH is a benchmark dataset for evaluating the multimodal citation text generation capabilities of multimodal large language models. It is composed of multimodal content derived from the interactions between academic papers and their reviewer responses, and encompasses rich information sources. The construction of this dataset involves extracting multimodal content from academic papers, constructing question-answer pairs using reviewer responses, and ensuring data quality via manual annotation and model filtering. MCITEBENCH contains a total of 3000 samples covering unimodal and hybrid-modal evidence sources, and is applicable for evaluating model performance on multimodal citation generation tasks.

提供机构：

复旦大学数据科学上海市重点实验室，复旦大学计算机科学技术学院

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

MCITEBench数据集的构建过程始于对学术论文及其审稿-反驳互动的收集。首先，利用学术论文作为信息来源，通过MinerU框架精确提取和筛选多模态内容，形成了一个包含文本、图像和表格等候选证据的语料库。然后，利用审稿-反驳互动构建问答对，其中答案包含对证据的支持。最后，通过自动化过滤和人工验证的质量控制流程确保数据集的质量。

特点

MCITEBench数据集的特点在于其多模态属性和多样性。它涵盖了来自学术论文的文本、图像和表格等多种模态的证据，以及单源和多源证据的案例。此外，数据集包含了3000个样本，覆盖了广泛的难度级别，并设计了多维度的评估标准来评估模型的表现。MCITEBench旨在评估和解析多模态引用文本生成能力，填补了现有工作的空白。

使用方法

MCITEBench数据集的使用方法包括构建问答对、评估模型表现和进行深度分析。首先，根据数据集中的证据和干扰项构建问答对。然后，通过Citation F1、Source F1、Source Exact Match和Accuracy等指标评估模型在引用质量、来源可靠性、答案准确性方面的表现。最后，通过分析模型在多模态引用文本生成任务中的表现，揭示其内在偏差和瓶颈，为引用文本生成任务提供有价值的见解。

背景与挑战

背景概述

在多模态大型语言模型（MLLMs）领域，尽管模型在整合不同模态的信息方面取得了显著进展，但它们仍然经常受到幻觉现象的影响。为了解决这个问题，一种有希望的解决方案是在生成文本后引用信息来源，提供一条透明的可验证的归因链。然而，现有的工作主要集中在为纯文本内容生成引用，忽略了多模态上下文中的挑战和机遇。为了解决这一差距，我们介绍了MCITEBENCH，这是第一个旨在评估和分析MLLMs多模态引用文本生成能力的基准。我们的基准包括来自学术论文和评论-反驳交互的数据，具有多样化的信息来源和多模态内容。我们从多个维度全面评估模型，包括引用质量、来源可靠性和答案准确性。通过广泛的实验，我们观察到MLLMs在多模态引用文本生成方面存在困难。我们还对模型的性能进行了深入分析，揭示了瓶颈在于将正确的来源归因于多模态内容，而不仅仅是理解多模态内容。

当前挑战

MLLMs在多模态引用文本生成方面面临着几个挑战。首先，构建高质量的问答数据集，其中多模态来源作为证据，并非易事。一方面，收集多模态语料库需要准确提取信息来源。另一方面，数据集中的证据必须与答案一致。特别是当多个证据共同支持一个答案时，确保它们相互关联并共同提供足够的支持来回答问题至关重要。其次，评估MLLMs在多模态引用生成方面的性能增加了额外的复杂性。开发可靠的跨模态蕴涵评估方法是评估引用证据是否支持生成答案的关键。此外，引用需要与回答一致，确保引用的证据既对回答问题有必要，又直接对应于生成的输出。因此，评估模型性能需要跨多个维度进行。

常用场景

经典使用场景

MCITEBench数据集主要用于评估和分析多模态大型语言模型（MLLMs）在多模态引文文本生成方面的能力。该数据集包含从学术论文和评论-反驳互动中提取的数据，具有多样化的信息来源和多模态内容。通过该数据集，研究人员可以评估模型在引文质量、来源可靠性和答案准确性等多个维度的表现。

衍生相关工作

MCITEBench数据集的推出促进了多模态引文文本生成领域的研究。基于该数据集，研究人员可以进行更深入的模型性能分析，探索模型在多模态理解、引文生成和归因等方面的挑战和瓶颈。此外，MCITEBench数据集也为开发新的多模态引文生成模型提供了实验平台，推动了该领域的发展。

数据集最近研究