Multimodal ArXiv

arXiv2024-03-04 更新2024-06-21 收录

下载链接：

https://mm-arxiv.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

Multimodal ArXiv是一个旨在提升大型视觉语言模型（LVLMs）科学理解能力的数据集，由ArXivCap和ArXivQA两部分组成。ArXivCap包含从57.2万篇ArXiv论文中提取的640万张图像和390万条描述，覆盖多个科学领域。ArXivQA则基于ArXivCap的图像，通过GPT-4V生成的问题答案对，用于增强LVLMs的数学推理能力。该数据集的创建旨在解决LVLMs在处理抽象科学图形时的理解限制，通过提供丰富的科学领域数据，帮助模型更好地理解和生成与科学文献相关的视觉内容。

Multimodal ArXiv is a dataset developed to enhance the scientific comprehension capabilities of Large Vision-Language Models (LVLMs). It consists of two components: ArXivCap and ArXivQA. ArXivCap includes 6.4 million images and 3.9 million captions extracted from 572,000 ArXiv papers, covering multiple scientific fields. ArXivQA, which is based on the images from ArXivCap, provides question-answer pairs generated via GPT-4V, aimed at strengthening the mathematical reasoning abilities of LVLMs. This dataset was created to address the understanding limitations of LVLMs when processing abstract scientific figures, and to assist models in better comprehending and generating visual content related to scientific literature by providing rich scientific domain data.

提供机构：

香港大学北京大学

创建时间：

2024-03-01

搜集汇总

数据集介绍

构建方式

在科学文献理解领域，大型视觉语言模型常因缺乏专业训练数据而难以解析抽象图表。Multimodal ArXiv数据集通过系统化流程构建，以填补这一空白。其核心部分ArXivCap源自arXiv预印本平台，经过严格筛选，仅保留经过同行评审的期刊文章、会议论文及综述类文献，确保数据质量。利用LaTeX源码解析技术，从572K篇论文中提取出640万张图像与390万条标注，并保留子图结构与原始论文标题，以支持多任务评估。随后通过规则清洗去除低质量标注，并采用GPT-4V生成基于科学图像的问答对，形成包含10万条样本的ArXivQA子集，从而构建出一个规模庞大且领域覆盖广泛的科学图文数据集。

特点

该数据集在科学计算视觉领域展现出显著优势，其规模与多样性为模型训练提供了坚实基础。ArXivCap涵盖32个学科领域，从计算机科学、数学到物理学与经济学，图像内容不仅包括自然场景，更专注于几何形状、科学图表等抽象视觉元素。数据集保留了学术论文中特有的子图结构与整体标注，支持从单图描述到多图摘要的复杂任务。ArXivQA则通过GPT-4V生成具有挑战性的多项选择题，强调大学级推理能力，有效提升了模型在数学推理等任务上的表现。与以往基于合成图表或单一领域的数据集相比，该数据集在真实性与覆盖广度上均实现了重要突破。

使用方法

该数据集为提升视觉语言模型的科学理解能力提供了多维度应用路径。研究者可利用ArXivCap进行四种渐进式视觉到文本任务的基准测试：单图标注生成、多图摘要创建、上下文感知标注以及基于图文对的论文标题生成。这些任务能够系统评估模型对学术图表细粒度语义的把握能力。同时，ArXivQA可直接用于指令微调，显著增强模型的数学推理与科学问答性能，如在MathVista基准测试中带来10.4%的绝对准确率提升。使用时可结合领域特定的子集进行针对性训练，并可通过自动评估指标（如BLEU-2、ROUGE-L）与人工错误分析相结合的方式，全面衡量模型进步与局限。

背景与挑战

背景概述

在人工智能领域，大规模视觉语言模型（LVLMs）虽在自然场景图像处理中表现卓越，但其对科学文献中抽象图表（如几何图形与科学绘图）的理解能力仍显不足，主要源于科学领域训练数据的匮乏。为填补这一空白，香港大学与北京大学的研究团队于2024年共同构建了Multimodal ArXiv数据集，旨在提升LVLMs的科学理解能力。该数据集包含ArXivCap与ArXivQA两部分，前者从57.2万篇arXiv预印本论文中提取了640万张图像与390万条标注，覆盖计算机科学、数学、物理学等多学科领域；后者则基于GPT-4V生成10万对问答数据，专注于增强模型的数学推理能力。Multimodal ArXiv的推出为科学图表理解提供了规模最大、领域最广的基准资源，显著推动了跨模态推理研究的发展。

当前挑战

Multimodal ArXiv致力于解决科学图表理解这一核心领域问题，其挑战主要体现在两方面：其一，科学图表常包含复杂语义（如数学公式、多子图结构），要求模型具备深层次的视觉解析与逻辑推理能力，而现有LVLMs在抽象元素识别与上下文关联方面仍存在显著差距；其二，数据集构建过程面临诸多困难，包括从海量LaTeX源码中精准提取图像-标注对、清洗噪声数据（如残缺标注或低质量图像），以及通过大模型生成高质量问答对时需平衡问题的多样性与科学性。这些挑战共同凸显了开发面向科学领域的鲁棒性视觉语言模型的迫切性。

常用场景

经典使用场景

在视觉语言模型研究领域，Multimodal ArXiv数据集为提升模型对学术图表（如几何图形、科学绘图等抽象视觉内容）的理解能力提供了关键训练资源。该数据集通过其大规模、多领域的学术图表与标注对，支撑了模型在科学图表描述生成、多图表摘要、上下文感知标注及论文标题生成等复杂任务上的性能评估与优化。

衍生相关工作

基于Multimodal ArXiv，研究者已开展多项经典工作，例如利用其ArXivQA子集显著提升模型在数学推理任务上的准确率，以及在ArXivCap上定义的四类视觉到文本任务（单图描述、多图摘要、上下文标注和标题生成）成为评估模型科学图表理解能力的新基准。这些工作不仅验证了数据集的效用，还促进了如Qwen-VL-Chat等开源模型在科学领域的适配与优化，推动了视觉语言模型在学术场景下的专业化发展。

数据集最近研究