vidore/arxivqa_test_subsampled

Name: vidore/arxivqa_test_subsampled
Creator: vidore
Published: 2024-06-28 08:17:52
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/vidore/arxivqa_test_subsampled

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个基于从arXiv出版物中提取的图形的视觉问答（VQA）数据集，问题是通过GPT-4 Vision生成的。为了确保我们基准数据集的一致性，我们从原始测试集中抽取了500对样本，并重新命名了不同的列以适应我们的需求。数据集包含查询、图像、图像文件名、选项、答案、页面、模型、提示和来源等特征。

This is a VQA dataset based on figures extracted from arXiv publications taken from ArXiVQA dataset from Multimodal ArXiV. The questions were generated synthetically using GPT-4 Vision. To ensure homogeneity across our benchmarked datasets, we subsampled the original test set to 500 pairs. Furthermore, we renamed the different columns for our purpose. The dataset includes features such as query, image, image filename, options, answer, page, model, prompt, and source.

提供机构：

vidore

原始信息汇总

数据集概述

数据集信息

特征:
- query: 字符串类型
- image: 图像类型
- image_filename: 字符串类型
- options: 字符串类型
- answer: 字符串类型
- page: 字符串类型
- model: 字符串类型
- prompt: 字符串类型
- source: 字符串类型
分割:
- test: 包含500个样本，大小为90,440,203字节
下载大小: 77,173,415字节
数据集大小: 90,440,203字节
配置:
- default: 包含测试集文件路径 data/test-*
任务类别:
- 视觉问答
- 问答
语言: 英语
标签:
- Figures
- multimodal-retrieval
- QA
- Visual QA
许可证: Creative Commons Attribution-ShareAlike 4.0 International License (cc-by-sa-4.0)
大小类别: n<1K

数据集描述

该数据集基于从arXiv出版物中提取的图表，源自Multimodal ArXiV数据集。
问题使用GPT-4 Vision合成生成。
为了确保基准数据集的一致性，原始测试集被采样为500对，并对列进行了重命名。

数据集加载

python from datasets import load_dataset ds = load_dataset("vidore/arxivqa_test_subsampled", split="test")

引用信息

bibtex @misc{li2024multimodal, title={Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models}, author={Lei Li and Yuqi Wang and Runxin Xu and Peiyi Wang and Xiachong Feng and Lingpeng Kong and Qi Liu}, year={2024}, eprint={2403.00231}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在科学文献可视化问答领域，vidore/arxivqa_test_subsampled数据集的构建体现了严谨的抽样与重组策略。该数据集源自Multimodal ArXiv项目中的ArXiVQA原始测试集，通过系统性下采样技术，从大规模科学图表中精选出500对高质量的图像-问题样本，确保了数据分布的均衡性与代表性。构建过程中，研究团队采用GPT-4 Vision模型自动生成与图表内容紧密关联的问答对，并重新规范了数据字段的命名体系，以适配多模态检索任务的标准格式，从而在保持学术严谨性的同时提升了数据的可用性。

特点

该数据集的核心特征在于其深度融合了科学出版物的视觉与语义信息。每一条数据均包含从arXiv论文中提取的学术图表、针对图表内容生成的文本问题、多项选择选项及标准答案，形成了结构化的多模态实例。数据字段涵盖图像文件名、来源页面、生成模型与提示词等元信息，为研究者提供了丰富的上下文线索。其小规模精选特性使得数据集兼具轻量化与高质量的优势，特别适用于评估视觉-语言模型在科学图表理解任务上的细粒度性能。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库便捷加载，调用load_dataset函数并指定数据集名称与测试分割即可获取结构化数据。数据以图像与文本对的形式组织，支持直接输入多模态模型进行端到端的训练或评估。典型应用场景包括视觉文档问答、图表语义检索等任务，用户可依据query字段提出问题，结合image字段的视觉输入，验证模型对科学图表中复杂信息的解析与推理能力。数据集的标准化格式确保了与主流多模态框架的无缝集成，为学术研究提供了可靠的基准平台。

背景与挑战

背景概述

在人工智能与科学文献交叉研究领域，多模态理解已成为提升大型视觉语言模型科学认知能力的关键方向。vidore/arxivqa_test_subsampled数据集于2024年由Lei Li等研究人员构建，其核心源于Multimodal ArXiv项目，旨在通过从arXiv学术论文中提取的图表数据，结合GPT-4 Vision生成的合成问题，构建一个专注于视觉文档问答的评测基准。该数据集以科学图表为媒介，探索模型在复杂学术图像与文本交互场景下的推理能力，对推动多模态检索与科学文档理解研究具有显著影响力。

当前挑战

该数据集致力于解决视觉文档问答领域的核心挑战，即模型如何准确理解并回答基于学术图表内容的复杂问题，这要求模型具备跨模态对齐与深层语义推理能力。在构建过程中，挑战主要体现在确保数据集的同质性与代表性，通过对原始测试集进行子采样以平衡规模与多样性，同时需处理图表来源的异构性以及合成问题与真实学术语境之间的语义一致性维护。

常用场景

经典使用场景

在科学文献理解与多模态人工智能研究领域，vidore/arxivqa_test_subsampled数据集为评估模型在复杂学术场景下的视觉问答能力提供了基准。该数据集聚焦于从arXiv预印本中提取的学术图表，结合由GPT-4 Vision生成的合成问题，经典使用场景在于系统性地评测视觉-语言模型对科学图表内容的理解、推理与信息提取能力。研究者通过该数据集能够量化模型在跨模态科学文档解析任务上的表现，尤其关注模型如何整合图像中的视觉信息与文本问题，以生成准确的答案。

衍生相关工作

围绕该数据集及其母数据集Multimodal ArXiv，已衍生出一系列探索科学多模态理解的经典研究工作。这些工作主要集中于提升模型对学术图表进行细粒度视觉定位、文本-图表语义对齐以及科学领域知识推理的能力。相关研究不仅提出了新颖的模型架构与训练策略，以在该基准上取得更优性能，还进一步拓展了评测维度，催生了针对图表类型分类、图表摘要生成等更具体任务的新基准，共同推动了多模态人工智能在科学计算领域的发展脉络。

数据集最近研究