SciGraphQA

arXiv2023-08-07 更新2024-07-24 收录

下载链接：

https://github.com/findalexli/SciGraphQA

下载链接

链接失效反馈

资源简介：

SciGraphQA是一个大规模的合成多轮问答数据集，专注于学术图表。该数据集由295,000个样本组成，是ChartVQA数据集的13倍大，是目前最大的开源图表视觉问答数据集。数据集的创建过程涉及从290,000篇计算机科学或机器学习ArXiv论文中提取图表，并使用Palm-2生成关于这些图表的多轮问答对话。SciGraphQA的应用领域包括为多模态大型语言模型（MLLMs）建立科学问答基准，旨在通过模拟真实学术交流场景，提高模型对复杂科学图表的理解和解释能力。

SciGraphQA is a large-scale synthetic multi-turn question answering dataset focused on academic charts. It comprises 295,000 samples, 13 times the size of the ChartVQA dataset, making it the largest open-source chart visual question answering dataset to date. The dataset is constructed by extracting charts from 290,000 arXiv papers in the fields of computer science or machine learning, and generating multi-turn question-answering dialogues about these charts via PaLM-2. The application scenarios of SciGraphQA include establishing scientific question answering benchmarks for multimodal large language models (MLLMs), with the goal of enhancing models' capabilities to understand and interpret complex scientific charts by simulating realistic academic communication scenarios.

提供机构：

未提及研究机构

创建时间：

2023-08-07

原始信息汇总

SciGraphQA 数据集概述

数据集简介

SciGraphQA 是一个与学术图表相关的合成多轮问答数据集，规模是之前最大的图表视觉问答数据集 ChartVQA 的 13 倍。该数据集包含 295K 个样本，每个样本平均有 2.23 个问答轮次。数据集的构建基于 290,000 篇 2010 年至 2020 年间发表的计算机科学或机器学习领域的 ArXiv 论文，使用 Palm-2 生成问答对话。

数据集规模

训练集: 295K 样本，771 MB（不包括图像）
测试集: 3K 样本，8.4 MB（不包括图像）
增强子集: 30K 样本，8.4 MB（不包括图像）

数据集特点

问答生成: 使用 Palm-2 生成开放词汇的多轮问答对话。
质量评估: 使用 GPT-4 评估问答轮次的匹配质量，平均评分 8.7/10。
模型评估: 评估了多种流行的多模态语言模型（MLLM），如 LLaVa、mPLUGowl、BLIP-2 和 openFlamingo，其中 LLaVA-13B 表现最佳，CIDEr 分数为 0.08。

数据集生成过程

文本上下文: 提供论文标题、摘要、提及图表的段落以及图表本身的丰富文本上下文。
问答轮次: 平均每个图表有 2.23 个问答轮次。
质量验证: 使用 GPT-4 评估问答轮次的匹配质量。

数据集比较

数据集	图表数量	数据/图表生成过程	问答对数量	问题生成	答案类型	图表类型数量
FigureQA	180K	合成数据和图表	2.3M	15 模板	固定词汇	4
DVQA	300K	合成数据和合成图表	3.4M	26 模板	固定词汇	1
PlotQA	224K	真实数据和合成图表	28M	76 模板	混合固定和开放词汇答案	3
ChartQA	21.9K	真实图表	32.7K	人工/机器生成	开放词汇	无限制
SciGraphQA	295K	真实学术图表	657K	机器生成	开放词汇	无限制

数据集应用

模型评估: 评估了多种模型的零样本能力，包括 LLaVa、mPLUGowl、BLIP-2 和 openFlamingo。
模型增强: 通过包含从图表中提取的数据表，增强了 LLaVA 的零样本 CIDEr 分数至 0.15。
微调验证: 使用数据集微调 LLaVa，CIDEr 分数达到 0.26。

数据集下载

AI搜集汇总

数据集介绍

构建方式

SciGraphQA数据集通过从2010年至2020年间发表的290,000篇计算机科学和机器学习领域的ArXiv论文中提取图表，并利用Palm-2模型生成295,000个开放词汇的多轮问答对话。构建过程中，Palm-2模型被提供了论文标题、摘要、提及图表的段落以及图表本身的丰富文本上下文，生成的对话平均每张图表包含2.23个问答轮次。GPT-4对3,000个测试集的问答轮次进行了质量评估，平均评分为8.7/10。

特点

SciGraphQA数据集的特点在于其大规模、多轮问答对话的生成方式，且使用了真实的学术图表而非合成数据。数据集支持开放词汇的问答，避免了固定模板和词汇的限制。此外，数据集的问答对话具有较高的多样性，涵盖了从图表结构到复杂推理的广泛问题类型，能够有效模拟自然对话中的动态交互。

使用方法

SciGraphQA数据集可用于训练和评估多模态大语言模型（MLLMs）在科学图表问答任务中的表现。用户可以通过提供图表及其相关文本上下文，利用该数据集进行模型微调或零样本评估。数据集的开放词汇特性使得模型能够处理更广泛的问题类型，而多轮对话的设计则有助于模型学习复杂的推理和解释能力。

背景与挑战

背景概述

SciGraphQA数据集由Shengzhi Li和Nima Tajbakhsh于2023年提出，旨在解决科学文献中复杂图表的多轮问答问题。该数据集基于290,000篇2010年至2020年间发表的计算机科学和机器学习领域的ArXiv论文，利用Palm-2模型生成了295,000个多轮问答对话样本。SciGraphQA不仅规模庞大，且使用真实学术图表而非合成数据，支持开放词汇的多轮问答，旨在为多模态大语言模型（MLLMs）提供科学图表问答的基准测试。该数据集的提出填补了现有图表问答数据集的空白，推动了科学文献理解和解释的自动化进程。

当前挑战

SciGraphQA数据集的构建面临多重挑战。首先，科学图表的复杂性远超自然图像，涉及趋势线、颜色编码等抽象元素，要求模型具备深入的语义理解能力。其次，多轮问答的生成过程需要结合图表的标题、摘要及上下文，确保问答的连贯性和准确性。此外，现有多模态大语言模型在处理科学图表时表现不佳，尤其是在零样本学习场景下，模型的性能显著下降。为应对这些挑战，SciGraphQA通过引入外部模型DePlot提取图表数据，并结合GPT-4进行问答质量评估，但仍需进一步优化模型的多模态理解和推理能力。

常用场景

经典使用场景

SciGraphQA 数据集的经典使用场景在于其为科学图表的多轮问答任务提供了丰富的资源。通过该数据集，研究者可以训练和评估多模态大语言模型（MLLMs）在理解科学图表方面的能力。这些模型能够处理复杂的图表结构，回答与图表内容相关的多轮问题，从而帮助用户深入理解图表中的数据趋势、关键点以及不同数据集之间的关系。

实际应用

SciGraphQA 数据集在实际应用中具有广泛的前景。例如，在学术研究中，研究人员可以利用该数据集训练的模型快速理解复杂的科学图表，从而提高研究效率。在教育领域，教师和学生可以通过与模型的多轮对话，深入探讨图表中的数据和趋势，增强学习效果。此外，在数据分析和可视化工具中，SciGraphQA 训练的模型可以为用户提供智能化的图表解读服务，帮助用户更好地理解和利用数据。

衍生相关工作

SciGraphQA 数据集的发布催生了一系列相关研究工作。首先，基于该数据集的基准测试，研究者们开发了多种多模态大语言模型，如 LLaVA 和 mPLUG-Owl，这些模型在科学图表问答任务中表现出色。其次，SciGraphQA 促进了图表到表格转换技术的发展，如 DePlot 模型，该技术通过将图表数据线性化，增强了模型的零样本学习能力。此外，SciGraphQA 还推动了多模态模型在科学文献理解中的应用研究，为未来的多模态学习提供了新的方向。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集