google/spiqa

Name: google/spiqa
Creator: google
Published: 2025-01-08 08:57:25
License: 暂无描述

Hugging Face2025-01-08 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/google/spiqa

下载链接

链接失效反馈

官方服务：

资源简介：

SPIQA是一个大规模且具有挑战性的问答数据集，专注于来自各种计算机科学领域的科学研究论文中的图表、表格和文本段落。这些图表涵盖了各种类型的图表、示意图、结果可视化等。数据集是经过精心筛选的结果，利用了多模态大语言模型（MLLMs）的广泛专业知识和能力来理解图表。我们采用了自动和手动筛选相结合的方式，以确保最高水平的质量和可靠性。SPIQA包含超过27万个问题，分为训练、验证和三个不同的评估分割。数据集的目的是评估大型多模态模型理解科学论文中复杂图表和表格以及文本段落的能力。

SPIQA is a large-scale and challenging question answering dataset focused on charts, tables, and text passages from scientific research papers across various computer science domains. These charts cover diverse types including diagrams, schematic illustrations, result visualizations, and more. The dataset is the outcome of meticulous curation, which leverages the extensive expertise and capabilities of multimodal large language models (MLLMs) to comprehend charts. We adopted a combination of automatic and manual filtering to ensure the highest level of quality and reliability. SPIQA contains over 270,000 questions, divided into training, validation, and three distinct evaluation splits. The purpose of this dataset is to evaluate the ability of large multimodal models to understand complex charts, tables, and text passages in scientific papers.

提供机构：

google

原始信息汇总

SPIQA 数据集卡片

数据集详情

数据集名称: SPIQA（Scientific Paper Image Question Answering）

数据集摘要: SPIQA 是一个大规模且具有挑战性的 QA 数据集，专注于计算机科学领域科学研究论文中的图表、表格和文本段落。图表涵盖了广泛的图表、图表、示意图、结果可视化等。该数据集是通过精心策划过程的结果，利用多模态大型语言模型（MLLMs）的广泛专业知识和能力来理解图表。我们采用自动和手动策划来确保最高级别的质量和可靠性。SPIQA 包含超过 27 万个问题，分为训练、验证和三种不同的评估拆分。该数据集的目的是评估大型多模态模型理解复杂图表和表格以及科学论文文本段落的能力。

支持的任务:

直接通过图表和表格进行 QA
直接通过全文进行 QA
CoT QA（检索有用的图表、表格；然后回答）

语言: 英语

发布日期: SPIQA 于 2024 年 6 月发布。

数据拆分

SPIQA 的不同拆分的统计数据如下：

<center>拆分</center>	<center>论文</center>	<center>问题</center>	<center>示意图</center>	<center>图表 & 图表</center>	<center>可视化</center>	<center>其他图表</center>	<center>表格</center>
<center>训练</center>	<center>25,459</center>	<center>262,524</center>	<center>44,008</center>	<center>70,041</center>	<center>27,297</center>	<center>6,450</center>	<center>114,728</center>
<center>验证</center>	<center>200</center>	<center>2,085</center>	<center>360</center>	<center>582</center>	<center>173</center>	<center>55</center>	<center>915</center>
<center>test-A</center>	<center>118</center>	<center>666</center>	<center>154</center>	<center>301</center>	<center>131</center>	<center>95</center>	<center>434</center>
<center>test-B</center>	<center>65</center>	<center>228</center>	<center>147</center>	<center>156</center>	<center>133</center>	<center>17</center>	<center>341</center>
<center>test-C</center>	<center>314</center>	<center>493</center>	<center>415</center>	<center>404</center>	<center>26</center>	<center>66</center>	<center>1,332</center>

数据集结构

数据集卡片的内容结构如下：

bash SPIQA ├── SPIQA_train_val_test-A_extracted_paragraphs.zip ├── 从 SPIQA 训练、验证和 test-A 拆分中提取的文本段落 ├── SPIQA_train_val_test-A_raw_tex.zip └── SPIQA 训练、验证和 test-A 拆分中的原始 tex 文件。这些文件不是重现我们结果所必需的；我们公开它们用于未来研究。 ├── train_val ├── SPIQA_train_val_Images.zip └── SPIQA 训练、验证拆分中的全分辨率图表和表格 ├── SPIQA_train.json └── SPIQA 训练元数据 ├── SPIQA_val.json └── SPIQA 验证元数据 ├── test-A ├── SPIQA_testA_Images.zip └── SPIQA test-A 拆分中的全分辨率图表和表格 ├── SPIQA_testA_Images_224px.zip └── SPIQA test-A 拆分中的 224px 图表和表格 ├── SPIQA_testA.json └── SPIQA test-A 元数据 ├── test-B ├── SPIQA_testB_Images.zip └── SPIQA test-B 拆分中的全分辨率图表和表格 ├── SPIQA_testB_Images_224px.zip └── SPIQA test-B 拆分中的 224px 图表和表格 ├── SPIQA_testB.json └── SPIQA test-B 元数据 ├── test-C ├── SPIQA_testC_Images.zip └── SPIQA test-C 拆分中的全分辨率图表和表格 ├── SPIQA_testC_Images_224px.zip └── SPIQA test-C 拆分中的 224px 图表和表格 ├── SPIQA_testC.json └── SPIQA test-C 元数据

testA_data_viewer.json 文件仅用于在 HuggingFace 查看器上查看部分数据，以快速了解元数据。

元数据结构

每个拆分的元数据以字典形式提供，键是论文的 arXiv ID。每个字典项的主要内容包括：

arXiv ID
Semantic scholar ID（对于 test-B）
图表和表格
- png 文件的名称
- 标题
- 内容类型（图表或表格）
- 图表类型（示意图、图表、照片（可视化）、其他）
QAs
- 问题、答案和理由
- 参考图表和表格
- 文本证据（对于 test-B 和 test-C）
摘要和全文文本（对于 test-B 和 test-C；其他拆分的全文以 zip 文件提供）

数据集使用和入门代码片段

下载数据集到本地

我们建议用户将元数据和图像下载到他们的本地机器上。

下载整个数据集（所有拆分）。 bash from huggingface_hub import snapshot_download snapshot_download(repo_id="google/spiqa", repo_type="dataset", local_dir=.) ### 指定本地目录路径
下载特定文件。 bash from huggingface_hub import hf_hub_download hf_hub_download(repo_id="google/spiqa", filename="test-A/SPIQA_testA.json", repo_type="dataset", local_dir=.) ### 指定本地目录路径

test-A 中特定论文的问题和答案

bash import json testA_metadata = json.load(open(test-A/SPIQA_testA.json, r)) paper_id = 1702.03584v3 print(testA_metadata[paper_id][qa])

test-B 中特定论文的问题和答案

bash import json testB_metadata = json.load(open(test-B/SPIQA_testB.json, r)) paper_id = 1707.07012 print(testB_metadata[paper_id][question]) ## 问题 print(testB_metadata[paper_id][composition]) ## 答案

test-C 中特定论文的问题和答案

bash import json testC_metadata = json.load(open(test-C/SPIQA_testC.json, r)) paper_id = 1808.08780 print(testC_metadata[paper_id][question]) ## 问题 print(testC_metadata[paper_id][answer]) ## 答案

注释概述

SPIQA 训练、验证和 test-A 集的问题和答案是机器生成的。此外，SPIQA test-A 集经过手动过滤和策划。SPIQA test-B 集的问题来自 QASA 数据集，而 SPIQA test-C 集的问题来自 QASPER 数据集。所有拆分中的问题回答都需要对图表和表格以及相关科学论文文本的全面理解。

个人和敏感信息

我们不知道数据集中有任何个人或敏感信息。

许可信息

CC BY 4.0

搜集汇总

数据集介绍

构建方式

SPIQA数据集的构建采用了自动化与人工审查相结合的方式，首先通过自动化的方法从arXiv上抓取计算机科学领域顶级会议发表的论文，随后针对论文中的图表和文本段落进行深入分析，生成相应的问题和答案。为了保证数据集的质量和可靠性，数据集的构建过程中还引入了人工审查机制，确保了每个问题和答案的准确性。

特点

SPIQA数据集的特点在于它是一个大规模的、针对科学论文中的图表和文本段落进行问题回答的挑战性数据集。它包含了计算机科学多个领域的论文图表，类型丰富，包括各类图表、原理图、结果可视化等。数据集的问题和答案是针对图表和文本的深入理解而设计的，这使得它成为一个评估大型多模态模型理解和处理复杂数据能力的宝贵资源。

使用方法

使用SPIQA数据集时，用户可以从HuggingFace Hub下载整个数据集或特定文件。数据集分为训练集、验证集和三个不同的评估集。用户可以根据自己的需求，利用提供的Python代码片段来加载特定的数据集元数据，进而访问具体论文的问题和答案。此外，数据集还提供了不同分辨率的图像文件，以适应不同的模型输入需求。

背景与挑战

背景概述

SPIQA数据集，全称为Scientific Paper Image Question Answering，是一个专注于科学论文中的图像、表格和文本段落的多模态问答大型数据集。该数据集由Google团队于2024年发布，旨在评估大规模多模态语言模型理解科学论文中复杂图像和表格的能力。SPIQA的构建过程融合了自动和手动筛选技术，以确保数据的高质量和可靠性。数据集包含了超过27万个问题，分为训练集、验证集和三个不同的测试集，收集了2018年至2023年间在顶级计算机科学会议上发表的所有科学论文。

当前挑战

SPIQA数据集面临的挑战主要包括：1）如何准确理解和回答涉及科学论文中图表和文本的复杂问题；2）构建过程中确保图像和表格与文本的准确对应和高质量的问题生成。此外，数据集的构建还需解决跨模态信息融合、机器生成问题的准确性以及人工审核的效率和一致性等问题。

常用场景

经典使用场景

在当前科研环境中，SPIQA数据集被广泛用于评估大规模多模态模型对科学论文中的图表及文本段落的理解能力。该数据集的经典使用场景主要涉及对科学图表的问答，包括直接基于图表和表格的问答，以及结合全文的问答。通过这一数据集，研究者能够训练和测试模型对于复杂图表信息的解析和文本信息的整合能力，进而提高模型在理解科学文献方面的表现。

实际应用

SPIQA数据集的实际应用场景十分广泛，它不仅能够服务于学术研究领域，比如辅助科学家快速定位和理解论文中的关键图表信息，还能应用于工业界，如协助工程师开发能够阅读和理解科学文档的人工智能助手，提升科研工作的效率。

衍生相关工作

SPIQA数据集的发布催生了众多相关研究工作，如针对数据集中的图表理解任务，研究者们开发了各种创新性的模型结构和训练策略。此外，该数据集还促进了多模态信息融合技术的进步，以及相关评测指标和工具的发展，为科学文献理解领域带来了新的研究方向和挑战。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集