MCiteBench

github2025-03-09 更新2025-03-07 收录

下载链接：

https://github.com/caiyuhu/MCiteBench

下载链接

链接失效反馈

官方服务：

资源简介：

MCiteBench是一个用于评估多模态大型语言模型（MLLMs）中多模态引用文本生成的基准。它包含了来自1749篇学术论文的3000个样本，具有2000个解释任务和1000个定位任务，证据在文本、图表、表格和混合模态之间平衡分布。

MCiteBench is a benchmark for evaluating multimodal citation text generation in Multimodal Large Language Models (MLLMs). It consists of 3000 samples from 1749 academic papers, including 2000 explanation tasks and 1000 localization tasks, with evidence evenly distributed across text, figures, tables and mixed modalities.

创建时间：

2025-02-18

原始信息汇总

MCiteBench 数据集概述

数据集简介

MCiteBench 是一个用于评估多模态大型语言模型（MLLMs）中多模态引用文本生成的基准测试。该数据集包括学术论文和审稿回复互动中的数据，重点关注引用质量、来源可靠性和答案准确性。

数据集构成

样本数量：3,000 个样本
来源论文：1,749 篇学术论文
任务类型：2,000 个解释任务和 1,000 个定位任务
证据类型：平衡地涵盖文本、图像、表格和混合模态的证据

数据格式

数据集包含以下字段：

question_id：问题 ID
pdf_id：相关 PDF 文档 ID
question_type：问题类型（"explanation" 或 "locating"）
question：问题文本
answer：答案（字符串、列表、浮点数或整数）
evidence_keys：证据的抽象引用或标识符列表
evidence_contents：与 evidence_keys 对应的实际证据内容
evidence_modal：证据模态类型（"figure"、"table"、"text"、"mixed"）
evidence_count：与问题相关的证据总数
distractor_count：干扰项总数
info_count：文档中的信息块总数
text_2_idx：文本信息到对应索引的映射
idx_2_text：索引到对应文本内容的反向映射
image_2_idx：图像路径到对应索引的映射
idx_2_image：索引到对应图像路径的反向映射
table_2_idx：表格路径到对应索引的映射
idx_2_table：索引到对应表格路径的反向映射
meta_data：构造数据时使用的额外元数据
distractor_contents：与干扰项对应的内容

使用说明

环境设置：使用 Conda 创建 Python 3.10 环境，安装依赖
数据下载：提供样本数据在 data 目录下，完整数据集可通过 Google Drive 下载
模型支持：支持多种模型，包括 gpt-4o、Qwen2-VL、InternVL2、MiniCPM、llava-onevision-qwen2 和 Llama-3.2 等
脚本运行：每个模型有对应的运行脚本，运行后结果将保存在 MCiteBench/output/ 目录下
评估方法：包括答案准确性、引用 F1 分数和来源 F1/EM 分数的计算

评估结果

答案准确性：通过 LLM 评分和分数计算，结果保存在 MCiteBench/output/answer_acc/
引用 F1 分数：通过句子引用分割和蕴含判断，结果保存在 MCiteBench/output/extracted_sen_cit_list/
来源 F1/EM 分数：通过分数计算，结果保存在 MCiteBench/output/citation_f1_source_f1_em/

搜集汇总

数据集介绍

构建方式

MCiteBench数据集的构建汇集了来自1,749篇学术论文的3,000个样本，涵盖了2,000个解释任务和1,000个定位任务。数据集在文本、图表、表格以及混合模态的证据之间保持了均衡分布，确保了数据的多模态特性和丰富的信息来源。

特点

该数据集的特点在于其多模态性质，不仅包括文本信息，还融合了图表和表格等视觉元素，以评估大型多模态语言模型在引文文本生成方面的性能。数据集关注引文质量、来源可靠性和答案准确性，为多模态引文生成任务提供了全面且高质量的评价基准。

使用方法

使用MCiteBench数据集时，用户需先配置环境并安装必要的依赖。数据集提供了样例数据以供测试，若需完整数据集，用户可从指定链接下载并解压至相应目录。数据集支持多种模型，每种模型都有相应的运行脚本，用户可根据需要选择合适的模型进行引文文本生成，并通过内置的评估脚本进行结果评估。

背景与挑战

背景概述

MCiteBench数据集，由Caiyu Hu、Yikai Zhang、Tinghui Zhu、Yiwei Ye和Yanghua Xiao等研究人员创建，旨在评估多模态大型语言模型（MLLMs）中的多模态引用文本生成能力。该数据集汇集了来自1749篇学术论文的3000个样本，涵盖了说明和定位两种任务类型，平衡地包含了文本、图表、表格以及混合模态的证据。MCiteBench的构建，专注于引用质量、来源可靠性和答案准确性，对于多模态信息检索和学术文档理解领域具有显著的研究价值。

当前挑战

该数据集在构建过程中面临的挑战包括：确保多模态数据的准确对齐和一致性，处理不同模态间信息的融合与解析，以及设计有效的评估指标来衡量引用文本的质量和准确性。此外，数据集在解决多模态领域问题时，还需应对如何准确识别和抽取关键证据，以及如何生成符合学术规范和读者期待的引用文本等挑战。

常用场景

经典使用场景

MCiteBench 数据集作为多模态引用文本生成的评估基准，其经典使用场景主要在于评估多模态大型语言模型（MLLMs）在学术文献和评审反驳互动中的引用质量、来源可靠性和答案准确性。该数据集包含了从1,749篇学术论文中提取的3,000个样本，专注于解释型和定位型任务，涵盖了文本、图像、表格以及混合模态的平衡证据，为研究多模态引用文本生成提供了丰富的实验材料。

实际应用

在实际应用中，MCiteBench 数据集可被用于训练和评估多模态语言模型，以便在学术写作和文献综述中自动生成准确的引用文本。这有助于研究人员快速定位关键证据，提高学术研究的效率和准确性，对于学术出版和知识传播具有潜在的促进作用。

衍生相关工作

基于 MCiteBench 数据集，研究者可以进一步开展相关工作，例如开发新的多模态引用生成模型、探索多模态学习在学术任务中的应用，以及设计更加精确的评估指标来衡量多模态引用文本生成的质量。这些衍生工作将推动多模态自然语言处理领域的学术研究向前发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集