MMInstruction/ArxivQA

Name: MMInstruction/ArxivQA
Creator: MMInstruction
Published: 2024-03-05 05:58:49
License: 暂无描述

Hugging Face2024-03-05 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/MMInstruction/ArxivQA

下载链接

链接失效反馈

官方服务：

资源简介：

ArxivQA是一个基于Arxiv论文中的图表生成的GPT4V视觉问答（VQA）样本集。该数据集主要用于大型多模态模型的研究，主要用户包括计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

提供机构：

MMInstruction

原始信息汇总

数据集卡片：Mutlimodal Arxiv QA

数据集加载说明

每个 arxivqa.jsonl 文件中的一行是一个示例：

json {"id": "cond-mat-2862", "image": "images/0805.4509_1.jpg", "options": ["A) The ordering temperatures for all materials are above the normalized temperature ( T/T_c ) of 1.2.", "B) The magnetic ordering temperatures decrease for Dy, Tb, and Ho as the normalized temperature ( T/T_c ) approaches 1.", "C) The magnetic ordering temperatures for all materials are the same across the normalized temperature ( T/T_c ).", "D) The magnetic ordering temperature is highest for Yttrium (Y) and decreases for Dy, Tb, and Ho."], "question": "What can be inferred about the magnetic ordering temperatures of the materials tested as shown in the graph?", "label": "B", "rationale": "The graph shows a sharp decline in frequency as the normalized temperature ( T/T_c ) approaches 1 for Dy, Tb, and Ho, indicating that their magnetic ordering temperatures decrease. No such data is shown for Yttrium (Y), thus we cant infer it has the highest magnetic ordering temperature." }

下载 arxivqa.json 和 images.tgz 到您的机器。
解压缩图像：tar -xzvf images.tgz。
根据需要加载数据集并处理样本。

python import json

with open("arxivqa.jsonl", r) as fr: arxiv_qa = [ json.loads(line.strip()) for line in fr]

sample = arxiv_qa[0] print(sample["image"]) # 图像文件

数据集详情

数据集类型：ArxivQA 是一组基于 Arxiv 论文中的图表生成的 GPT4V 生成的 VQA 样本。

许可证：CC-BY-SA-4.0；并且应遵守 OpenAI 的政策：https://openai.com/policies/terms-of-use

预期用途：

主要预期用途：ArxivQA 的主要用途是研究大型多模态模型。

主要预期用户：该模型的主要预期用户是计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

搜集汇总

数据集介绍

构建方式

MMInstruction/ArxivQA数据集的构建，是基于GPT4V生成的视觉问答(VQA)样本，选取自Arxiv论文中的图像。每一数据样本包含一个来自论文图像的问答对，并提供了多个选项以及正确答案。构建过程中，通过解析Arxiv论文中的图像，并与相关文本信息相结合，形成了一个综合性的多模态数据集。

特点

该数据集的特点在于其多模态属性，融合了视觉与文本信息，为研究大型多模态模型提供了丰富的资源。数据集涵盖了不同领域的科学论文，使得模型可以接触并学习到多样化的科学知识和图表解读能力。此外，数据集遵循CC-BY-SA-4.0协议，保证了数据的开放性和共享性。

使用方法

使用MMInstruction/ArxivQA数据集时，首先需要下载`arxivqa.jsonl`和`images.tgz`文件，并解压图像文件。随后，通过Python代码加载JSONL文件，可以获取数据样本，每个样本都包含了图像文件的路径、问题、选项、答案及解题依据。用户可以根据自己的需求对样本进行处理和分析。

背景与挑战

背景概述

ArxivQA数据集，基于GPT4V生成的视觉问答（VQA）样本，其数据来源于Arxiv论文中的图像。该数据集的构建旨在推动大型多模态模型的研究，它为计算机视觉、自然语言处理、机器学习以及人工智能领域的研究人员及爱好者提供了一个独特的研究平台。自创建以来，ArxivQA数据集以其创新的数据收集方式和对学术文献的可视化理解，对相关领域产生了显著的影响。

当前挑战

ArxivQA数据集在构建过程中面临了多项挑战，其中包括如何准确地将学术论文中的复杂图表转化为可问答的视觉问题，以及如何保证所生成的问题与图像内容的相关性和准确性。此外，该数据集在解决视觉问答领域问题上也面临挑战，如如何有效地融合视觉信息与语言描述，以及如何处理图表中的抽象概念和复杂的科学术语。

常用场景

经典使用场景

在当前科研环境中，图像与文本的联合理解已成为计算机视觉与自然语言处理领域的研究热点。MMInstruction/ArxivQA数据集便是针对这一需求，提供了基于Arxiv论文中的图像生成的视觉问答示例。该数据集的经典使用场景在于训练与评估多模态模型对科学图表的理解能力，进而实现对科学文献中图像所蕴含信息的有效解读。

衍生相关工作

基于ArxivQA数据集，研究者们已经开展了一系列相关工作，如多模态推理、科学文献自动摘要等。这些工作不仅拓宽了多模态学习在科学研究中的应用范围，也为相关领域的模型训练与评估提供了新的视角和方法。

数据集最近研究