SPIQA

Name: SPIQA
Creator: 谷歌研究院，约翰斯·霍普金斯大学
Published: 2024-07-13 00:37:59
License: 暂无描述

arXiv2024-07-13 更新2024-07-16 收录

下载链接：

https://huggingface.co/datasets/google/spiqa

下载链接

链接失效反馈

官方服务：

资源简介：

SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建，是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题，涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选，确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力，旨在提高信息检索和问答系统的性能。

Co-developed by Google Research and Johns Hopkins University, the SPIQA dataset is the first large-scale multimodal question answering (QA) dataset targeting complex figures and tables in scientific research papers. It contains 270,194 questions covering research papers across multiple domains of computer science. The dataset was constructed via a combination of automatic and manual screening to ensure its quality and diversity. The SPIQA dataset is primarily used to evaluate the capabilities of multimodal large language models (LLMs) in understanding figures and tables from scientific papers, aiming to improve the performance of information retrieval and question answering systems.

提供机构：

谷歌研究院，约翰斯·霍普金斯大学

创建时间：

2024-07-13

原始信息汇总

SPIQA 数据集卡片

数据集详情

数据集名称: SPIQA（Scientific Paper Image Question Answering）

数据集摘要: SPIQA 是一个大规模且具有挑战性的 QA 数据集，专注于来自各种计算机科学领域的科学研究论文中的图表、表格和文本段落。这些图表涵盖了广泛的图表、图表、示意图、结果可视化等。该数据集是通过精心策划过程的结果，利用多模态大型语言模型（MLLMs）的广度和能力来理解图表。我们采用自动和手动策划来确保最高级别的质量和可靠性。SPIQA 包含超过 270K 个问题，分为训练、验证和三种不同的评估拆分。该数据集的目的是评估大型多模态模型理解复杂图表和表格以及科学论文文本段落的能力。

支持的任务:

直接通过图表和表格进行 QA
直接通过全文进行 QA
CoT QA（检索有用的图表、表格；然后回答）

语言: 英语

发布日期: SPIQA 于 2024 年 6 月发布。

数据拆分

SPIQA 的不同拆分的统计数据如下：

<center>拆分</center>	<center>论文</center>	<center>问题</center>	<center>示意图</center>	<center>图表 & 图表</center>	<center>可视化</center>	<center>其他图表</center>	<center>表格</center>
<center>训练</center>	<center>25,459</center>	<center>262,524</center>	<center>44,008</center>	<center>70,041</center>	<center>27,297</center>	<center>6,450</center>	<center>114,728</center>
<center>验证</center>	<center>200</center>	<center>2,085</center>	<center>360</center>	<center>582</center>	<center>173</center>	<center>55</center>	<center>915</center>
<center>测试-A</center>	<center>118</center>	<center>666</center>	<center>154</center>	<center>301</center>	<center>131</center>	<center>95</center>	<center>434</center>
<center>测试-B</center>	<center>65</center>	<center>228</center>	<center>147</center>	<center>156</center>	<center>133</center>	<center>17</center>	<center>341</center>
<center>测试-C</center>	<center>314</center>	<center>493</center>	<center>415</center>	<center>404</center>	<center>26</center>	<center>66</center>	<center>1,332</center>

数据集结构

数据集卡片的内容结构如下：

bash SPIQA ├── SPIQA_train_val_test-A_extracted_paragraphs.zip ├── 从 SPIQA 训练、验证和测试-A 拆分中提取的文本段落 ├── SPIQA_train_val_test-A_raw_tex.zip └── SPIQA 训练、验证和测试-A 拆分中的原始 tex 文件。这些文件不是重现我们结果所必需的；我们开源它们用于未来的研究。 ├── train_val ├── SPIQA_train_val_Images.zip └── SPIQA 训练、验证拆分中的全分辨率图表和表格 ├── SPIQA_train.json └── SPIQA 训练元数据 ├── SPIQA_val.json └── SPIQA 验证元数据 ├── test-A ├── SPIQA_testA_Images.zip └── SPIQA 测试-A 拆分中的全分辨率图表和表格 ├── SPIQA_testA_Images_224px.zip └── SPIQA 测试-A 拆分中的 224px 图表和表格 ├── SPIQA_testA.json └── SPIQA 测试-A 元数据 ├── test-B ├── SPIQA_testB_Images.zip └── SPIQA 测试-B 拆分中的全分辨率图表和表格 ├── SPIQA_testB_Images_224px.zip └── SPIQA 测试-B 拆分中的 224px 图表和表格 ├── SPIQA_testB.json └── SPIQA 测试-B 元数据 ├── test-C ├── SPIQA_testC_Images.zip └── SPIQA 测试-C 拆分中的全分辨率图表和表格 ├── SPIQA_testC_Images_224px.zip └── SPIQA 测试-C 拆分中的 224px 图表和表格 ├── SPIQA_testC.json └── SPIQA 测试-C 元数据

testA_data_viewer.json 文件仅用于在 HuggingFace 查看器上查看部分数据，以快速了解元数据。

元数据结构

每个拆分的元数据以字典形式提供，键是论文的 arXiv ID。每个字典项的主要内容包括：

arXiv ID
Semantic scholar ID（用于测试-B）
图表和表格
- png 文件的名称
- 标题
- 内容类型（图表或表格）
- 图表类型（示意图、图表、照片（可视化）、其他）
QAs
- 问题、答案和理由
- 参考图表和表格
- 文本证据（用于测试-B 和测试-C）
摘要和全文文本（用于测试-B 和测试-C；其他拆分的全文以 zip 文件提供）

数据集使用和入门代码片段

下载数据集到本地

我们建议用户将元数据和图像下载到他们的本地机器。

下载整个数据集（所有拆分）。 bash from huggingface_hub import snapshot_download snapshot_download(repo_id="google/spiqa", repo_type="dataset", local_dir=.) ### 指定本地目录路径
下载特定文件。 bash from huggingface_hub import hf_hub_download hf_hub_download(repo_id="google/spiqa", filename="test-A/SPIQA_testA.json", repo_type="dataset", local_dir=.) ### 指定本地目录路径

从测试-A 中的特定论文获取问题和答案

bash import json testA_metadata = json.load(open(test-A/SPIQA_testA.json, r)) paper_id = 1702.03584v3 print(testA_metadata[paper_id][qa])

从测试-B 中的特定论文获取问题和答案

bash import json testB_metadata = json.load(open(test-B/SPIQA_testB.json, r)) paper_id = 1707.07012 print(testB_metadata[paper_id][question]) ## 问题 print(testB_metadata[paper_id][composition]) ## 答案

从测试-C 中的特定论文获取问题和答案

bash import json testC_metadata = json.load(open(test-C/SPIQA_testC.json, r)) paper_id = 1808.08780 print(testC_metadata[paper_id][question]) ## 问题 print(testC_metadata[paper_id][answer]) ## 答案

注释概述

SPIQA 训练、验证和测试-A 集的问题和答案是机器生成的。此外，SPIQA 测试-A 集经过手动过滤和策划。SPIQA 测试-B 集的问题来自 QASA 数据集，而 SPIQA 测试-C 集的问题来自 QASPER 数据集。所有拆分中的问题回答都需要对图表和表格以及相关的科学论文文本进行整体理解。

个人和敏感信息

我们不知道数据集中有任何个人或敏感信息。

许可信息

CC BY 4.0

引用信息

bibtex @article{pramanick2024spiqa, title={SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers}, author={Pramanick, Shraman and Chellappa, Rama and Venugopalan, Subhashini}, journal={arXiv preprint arXiv:2407.09413}, year={2024} }

搜集汇总

数据集介绍

构建方式

SPIQA数据集通过结合自动和手动策划的方式构建，旨在解释科学研究文章中的复杂图表和表格。该数据集利用多模态大语言模型（MLLMs）的专业知识和能力，涵盖了计算机科学各个领域的研究文章。SPIQA包含270K个问题，分为训练、验证和三种不同的评估拆分，通过广泛实验评估当前多模态系统对研究文章细微差别的理解能力。此外，SPIQA还提出了一种基于上下文检索的链式思维（CoT）评估策略，允许对模型进行细粒度的逐步评估，并提高模型性能。

使用方法

SPIQA数据集可用于评估和训练多模态大语言模型（MLLMs），以提高其对科学研究文章中复杂图表和表格的理解能力。研究者可以使用SPIQA进行模型训练和验证，通过直接QA任务、全文章QA任务和链式思维（CoT）QA任务来评估模型的性能。此外，SPIQA还提供了一种新的LLM-based评估指标LLMLogScore（L3Score），用于自由形式QA的评估，该指标结合了LLMs的置信度，使用对数似然令牌概率来评估候选答案的质量。

背景与挑战

背景概述

SPIQA（Scientific Paper Image Question Answering）数据集由Google Research和Johns Hopkins University的研究人员于2024年创建，旨在解决科学论文中图像和表格的多模态问答问题。该数据集是首个大规模的科学论文图像问答数据集，专注于解释计算机科学领域内科学研究文章中的复杂图表和表格。SPIQA的创建旨在弥补现有问答数据集在处理科学论文图像和表格方面的不足，通过自动和手动策展，构建了一个包含27万条问答对的数据集，涵盖了广泛的图表、表格、示意图和结果可视化。SPIQA的推出对提升多模态大语言模型在科学文献理解方面的能力具有重要意义，并为未来的研究提供了新的方向。

当前挑战

SPIQA数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何有效地从科学论文的图像和表格中提取信息并进行问答；二是构建过程中遇到的挑战，包括数据集的策展复杂性和成本，以及确保数据集的高质量和多样性。科学论文的复杂性和专业性要求模型具备深入的领域知识和长上下文理解能力，而现有的多模态系统在这方面仍存在不足。此外，数据集的构建需要大量的专业知识和时间投入，以确保问答对的准确性和相关性。SPIQA通过引入链式思维（Chain-of-Thought）评估策略和细粒度的步骤评估，试图解决这些挑战，但仍需进一步的研究和优化。

常用场景

经典使用场景

SPIQA数据集的经典使用场景在于评估多模态大语言模型（MLLMs）在科学论文中理解和回答问题的能力。通过提供包含复杂图表和表格的科学论文，SPIQA数据集能够测试模型在多模态环境下的信息整合和推理能力。

解决学术问题

SPIQA数据集解决了现有科学论文问答（QA）数据集规模有限且仅依赖文本内容的问题。通过引入大规模的多模态QA数据集，SPIQA推动了科学文献理解的研究，特别是在需要理解复杂图表和表格的场景中，这对于提升学术研究和教育效率具有重要意义。

实际应用

SPIQA数据集在实际应用中可用于开发和评估智能助手、教育工具和研究支持系统，这些系统能够帮助学生和研究人员快速理解科学论文中的复杂信息。此外，SPIQA还可以用于自动化文献综述和信息提取，提高科研工作的效率。

数据集最近研究