M3SCIQA

Name: M3SCIQA
Creator: 耶鲁大学
Published: 2024-11-07 01:52:01
License: 暂无描述

arXiv2024-11-07 更新2024-11-08 收录

下载链接：

https://github.com/yale-nlp/M3SciQA

下载链接

链接失效反馈

官方服务：

资源简介：

M3SCIQA是由耶鲁大学和Allen Institute for AI共同创建的多模态、多文档科学问答基准数据集，旨在全面评估基础模型在科学文献理解中的表现。该数据集包含1452个专家注释的问题，涵盖70个自然语言处理论文集群，每个集群包含一个主论文及其所有引用的文档。数据集的创建过程模拟了科学研究中的比较分析工作流程，要求模型在多个文档和多种数据格式（如图表）之间进行跨引用和推理。M3SCIQA主要应用于评估和提升基础模型在多模态科学文献分析中的能力，旨在解决当前模型在多文档和多模态信息处理中的不足。

M3SCIQA is a multimodal, multi-document scientific question answering benchmark dataset co-developed by Yale University and the Allen Institute for AI, designed to comprehensively evaluate foundation models' performance in scientific literature understanding. This dataset contains 1,452 expert-annotated questions covering 70 natural language processing (NLP) paper clusters, with each cluster including one core paper and all its cited documents. The dataset creation process simulates the comparative analysis workflow in scientific research, requiring models to perform cross-referencing and reasoning across multiple documents and various data formats such as charts. M3SCIQA is primarily used to evaluate and enhance the capabilities of foundation models in multimodal scientific literature analysis, aiming to address the current shortcomings of existing models in multi-document and multimodal information processing.

提供机构：

耶鲁大学

创建时间：

2024-11-07

原始信息汇总

M3SciQA 数据集概述

简介

M3SciQA 是一个多模态、多文档的科学问答基准数据集，旨在更全面地评估基础模型。该数据集包含 1,452 个专家注释的问题，涵盖 70 个自然语言处理（NLP）论文集群。每个集群代表一篇主要论文及其所有引用的文档，模拟了通过多模态和多文档数据理解单篇论文的工作流程。

数据集结构

数据文件夹 (data/):
- locality.jsonl: 包含特定位置的问题。
- combined_test.jsonl: 包含组合的测试问题。
- combined_val.jsonl: 包含组合的验证问题。
- locality/: 包含用于构成特定位置问题的所有图像。
结果文件夹 (results/):
- 包含不同设置下的评估结果。
源代码文件夹 (src/):
- data_utils.py: 数据处理工具。
- evaluate_detail.py: 用于评估细节特定问题的响应。
- evaluate_locality.py: 用于评估位置特定问题的响应。
- generate_detail.py: 用于生成细节特定问题的响应。
- generate_locality.py: 用于生成位置特定问题的响应。
- models_w_vision.py: 包含视觉模型的代码。
- models_wo_vision.py: 不包含视觉模型的代码。

位置特定问题评估

输出格式

json { "question_anchor": "...", "reference_arxiv_id": "...", "reference_s2_id": "...", "response": "..." }

response 字段包含模型的输出排名。

响应生成

例如，评估 GPT-4o 的命令： bash cd src python generate_locality.py --model gpt_4_o

响应评估

例如，计算 GPT-4o 的 MRR、NDCG@3 和 Recall@3 的命令： bash python evaluate_locality.py
--result_path ../results/locality_response/gpt_4_o.jsonl --k 3

细节特定问题评估

输出格式

json { "question": "...", "answer": "...", "response": "...", "reference_reasoning_type": "..." }

响应生成

例如，使用 GPT-4 生成响应的命令： bash cd src python generate_detail.py --model gpt_4 --k 3 --chunk_length 15000

响应评估

例如，评估 GPT-4 生成响应的命令： bash python evaluate_detail.py --result_path ../results/retrieval@3/gpt_4.jsonl

搜集汇总

数据集介绍

构建方式

M3SCIQA数据集通过模拟科学研究中的比较分析工作流程构建，涵盖了70个自然语言处理论文集群，每个集群包含一篇主要论文及其所有引用的文档。专家标注者从这些集群中选择锚定论文，并从中提取图表信息，生成视觉上下文问题。随后，GPT-4被用于从识别的参考文献中生成基于参考的问题，并通过组合视觉上下文问题和基于参考的问题形成综合问题，最终由专家标注者验证这些问题的质量。

使用方法

M3SCIQA数据集可用于评估基础模型在多模态科学文献理解和推理中的能力。研究者可以通过该数据集测试模型在处理多文档和多模态信息时的表现，包括图像和文本的结合理解。数据集的评估分为视觉上下文评估和基于参考的评估两个阶段，分别测试模型在图像理解和多文档信息检索中的表现。通过这些评估，研究者可以深入了解当前模型在复杂科学文档处理中的局限性和挑战。

背景与挑战

背景概述

M3SCIQA数据集由耶鲁大学和Allen Institute for AI的研究人员于2024年引入，旨在评估基础模型在多模态和多文档科学问答任务中的表现。该数据集包含1,452个专家注释的问题，涵盖70个自然语言处理论文集群，每个集群代表一篇主要论文及其所有引用的文档。M3SCIQA的创建旨在填补现有基准主要关注单文档、纯文本任务的空白，通过模拟研究人员在理解单篇论文时需要的多模态和多文档数据处理流程，提供了一个更全面的评估平台。

当前挑战

M3SCIQA数据集面临的挑战主要包括两个方面：一是解决多模态信息检索和跨多篇科学文档推理的复杂性，当前基础模型在这方面仍显著落后于人类专家；二是数据集构建过程中遇到的挑战，如确保数据集的多模态和多文档特性的同时，保持数据的高质量和一致性。此外，模型在处理科学图像和表格时的准确性和有效性，以及在长文档检索任务中的表现，也是当前模型需要克服的重要难题。

常用场景

经典使用场景

M3SCIQA数据集的经典使用场景在于评估基础模型在多模态和多文档科学问答任务中的表现。通过模拟科学研究中的常见工作流程，该数据集要求模型在理解科学图像和表格的同时，整合来自多个文档的信息，以回答复杂的问题。这种场景不仅测试了模型在多模态信息检索和多文档推理方面的能力，还反映了实际科研工作中对信息综合和解释的需求。

解决学术问题

M3SCIQA数据集解决了当前基准测试中对多模态和多文档科学问答任务的忽视问题。传统的基准测试主要集中在单一文档或纯文本任务上，而M3SCIQA通过引入多模态和多文档的复杂性，填补了这一空白。这不仅推动了基础模型在科学文献理解方面的研究进展，还为未来在多模态科学文献分析中的应用提供了重要的评估工具。

实际应用

M3SCIQA数据集在实际应用中具有广泛的前景，特别是在科学研究和文献分析领域。科研人员可以利用该数据集来评估和改进AI系统在处理复杂科学文献中的表现，从而提高信息检索和数据解释的准确性。此外，该数据集还可用于开发和验证新的多模态信息处理算法，以应对科学研究中日益增长的数据多样性和复杂性。

数据集最近研究