M3SCIQA|科学问答数据集|多模态数据数据集

arXiv2024-11-07 更新2024-11-08 收录

科学问答

多模态数据

下载链接：

https://github.com/yale-nlp/M3SciQA

下载链接

链接失效反馈

资源简介：

M3SCIQA是由耶鲁大学和Allen Institute for AI共同创建的多模态、多文档科学问答基准数据集，旨在全面评估基础模型在科学文献理解中的表现。该数据集包含1452个专家注释的问题，涵盖70个自然语言处理论文集群，每个集群包含一个主论文及其所有引用的文档。数据集的创建过程模拟了科学研究中的比较分析工作流程，要求模型在多个文档和多种数据格式（如图表）之间进行跨引用和推理。M3SCIQA主要应用于评估和提升基础模型在多模态科学文献分析中的能力，旨在解决当前模型在多文档和多模态信息处理中的不足。

提供机构：

耶鲁大学

创建时间：

2024-11-07

原始信息汇总

M3SciQA 数据集概述

简介

M3SciQA 是一个多模态、多文档的科学问答基准数据集，旨在更全面地评估基础模型。该数据集包含 1,452 个专家注释的问题，涵盖 70 个自然语言处理（NLP）论文集群。每个集群代表一篇主要论文及其所有引用的文档，模拟了通过多模态和多文档数据理解单篇论文的工作流程。

数据集结构

数据文件夹 (data/):
- locality.jsonl: 包含特定位置的问题。
- combined_test.jsonl: 包含组合的测试问题。
- combined_val.jsonl: 包含组合的验证问题。
- locality/: 包含用于构成特定位置问题的所有图像。
结果文件夹 (results/):
- 包含不同设置下的评估结果。
源代码文件夹 (src/):
- data_utils.py: 数据处理工具。
- evaluate_detail.py: 用于评估细节特定问题的响应。
- evaluate_locality.py: 用于评估位置特定问题的响应。
- generate_detail.py: 用于生成细节特定问题的响应。
- generate_locality.py: 用于生成位置特定问题的响应。
- models_w_vision.py: 包含视觉模型的代码。
- models_wo_vision.py: 不包含视觉模型的代码。

位置特定问题评估

输出格式

json { "question_anchor": "...", "reference_arxiv_id": "...", "reference_s2_id": "...", "response": "..." }

response 字段包含模型的输出排名。

响应生成

例如，评估 GPT-4o 的命令： bash cd src python generate_locality.py --model gpt_4_o

响应评估

例如，计算 GPT-4o 的 MRR、NDCG@3 和 Recall@3 的命令： bash python evaluate_locality.py
--result_path ../results/locality_response/gpt_4_o.jsonl --k 3

细节特定问题评估

输出格式

json { "question": "...", "answer": "...", "response": "...", "reference_reasoning_type": "..." }

响应生成

例如，使用 GPT-4 生成响应的命令： bash cd src python generate_detail.py --model gpt_4 --k 3 --chunk_length 15000

响应评估

例如，评估 GPT-4 生成响应的命令： bash python evaluate_detail.py --result_path ../results/retrieval@3/gpt_4.jsonl

AI搜集汇总

数据集介绍

构建方式

M3SCIQA数据集通过模拟科学研究中的比较分析工作流程构建，涵盖了70个自然语言处理论文集群，每个集群包含一篇主要论文及其所有引用的文档。专家标注者从这些集群中选择锚定论文，并从中提取图表信息，生成视觉上下文问题。随后，GPT-4被用于从识别的参考文献中生成基于参考的问题，并通过组合视觉上下文问题和基于参考的问题形成综合问题，最终由专家标注者验证这些问题的质量。

使用方法

M3SCIQA数据集可用于评估基础模型在多模态科学文献理解和推理中的能力。研究者可以通过该数据集测试模型在处理多文档和多模态信息时的表现，包括图像和文本的结合理解。数据集的评估分为视觉上下文评估和基于参考的评估两个阶段，分别测试模型在图像理解和多文档信息检索中的表现。通过这些评估，研究者可以深入了解当前模型在复杂科学文档处理中的局限性和挑战。

背景与挑战

背景概述

M3SCIQA数据集由耶鲁大学和Allen Institute for AI的研究人员于2024年引入，旨在评估基础模型在多模态和多文档科学问答任务中的表现。该数据集包含1,452个专家注释的问题，涵盖70个自然语言处理论文集群，每个集群代表一篇主要论文及其所有引用的文档。M3SCIQA的创建旨在填补现有基准主要关注单文档、纯文本任务的空白，通过模拟研究人员在理解单篇论文时需要的多模态和多文档数据处理流程，提供了一个更全面的评估平台。

当前挑战

M3SCIQA数据集面临的挑战主要包括两个方面：一是解决多模态信息检索和跨多篇科学文档推理的复杂性，当前基础模型在这方面仍显著落后于人类专家；二是数据集构建过程中遇到的挑战，如确保数据集的多模态和多文档特性的同时，保持数据的高质量和一致性。此外，模型在处理科学图像和表格时的准确性和有效性，以及在长文档检索任务中的表现，也是当前模型需要克服的重要难题。

常用场景

经典使用场景

M3SCIQA数据集的经典使用场景在于评估基础模型在多模态和多文档科学问答任务中的表现。通过模拟科学研究中的常见工作流程，该数据集要求模型在理解科学图像和表格的同时，整合来自多个文档的信息，以回答复杂的问题。这种场景不仅测试了模型在多模态信息检索和多文档推理方面的能力，还反映了实际科研工作中对信息综合和解释的需求。

解决学术问题

M3SCIQA数据集解决了当前基准测试中对多模态和多文档科学问答任务的忽视问题。传统的基准测试主要集中在单一文档或纯文本任务上，而M3SCIQA通过引入多模态和多文档的复杂性，填补了这一空白。这不仅推动了基础模型在科学文献理解方面的研究进展，还为未来在多模态科学文献分析中的应用提供了重要的评估工具。

实际应用

M3SCIQA数据集在实际应用中具有广泛的前景，特别是在科学研究和文献分析领域。科研人员可以利用该数据集来评估和改进AI系统在处理复杂科学文献中的表现，从而提高信息检索和数据解释的准确性。此外，该数据集还可用于开发和验证新的多模态信息处理算法，以应对科学研究中日益增长的数据多样性和复杂性。

数据集最近研究

相关研究论文

1
M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models耶鲁大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录