VisOnlyQA

github2024-12-03 更新2024-12-06 收录

下载链接：

https://github.com/psunlpgroup/VisOnlyQA

下载链接

链接失效反馈

官方服务：

资源简介：

VisOnlyQA 数据集用于评估大型视觉语言模型（LVLMs）在科学图形几何信息视觉感知能力上的表现。该数据集包括1200个多选题，涵盖12个视觉感知任务和4类科学图形。此外，还提供了一个包含70,000个实例的训练数据集。

The VisOnlyQA dataset is designed to evaluate the visual perception capabilities of large vision-language models (LVLMs) regarding geometric information from scientific figures. This dataset includes 1,200 multiple-choice questions, covering 12 visual perception tasks and 4 categories of scientific figures. Additionally, a training dataset containing 70,000 instances is also provided.

创建时间：

2024-11-25

原始信息汇总

VisOnlyQA 数据集概述

数据集描述

VisOnlyQA 数据集用于评估大型视觉语言模型（LVLMs）在科学图表几何信息视觉感知能力。数据集包含1200个多选题，分布在12个视觉感知任务中，涵盖4类科学图表。此外，还提供了一个包含70,000个实例的训练数据集。

数据集组成

Eval-Real: 包含500个实例，用于现有数据集（如MathVista、MMMU和CharXiv）中的图表问题。
Eval-Synthetic: 包含700个实例，用于合成图表问题。
Train: 包含70,000个实例，用于训练（合成图表）。

数据格式

每个实例包含以下属性：

decoded_image: 输入图像（PIL.Image）
question: 问题（无指令）
prompt_reasoning: 带有链式思维指令的提示
prompt_no_reasoning: 不使用链式思维指令的提示
answer: 正确答案（如True, a）

元数据

image_path: 图像文件路径
image_category: 图像类别（如geometry, chemistry）
question_type: 问题类型（single_answer 或 multiple answers）
task_category: 任务类别（如triangle）
response_options: 多选选项（如[True, False], [a, b, c, d, e]）
source: 数据集来源
id: 唯一ID

数据集链接

Eval-Real: https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Eval_Real
Eval-Synthetic: https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Eval_Synthetic
Train: https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Train

搜集汇总

数据集介绍

构建方式

VisOnlyQA数据集的构建旨在评估大型视觉语言模型（LVLMs）在科学图形几何信息视觉感知能力方面的表现。该数据集包括1200个多选题，分布在12个视觉感知任务中，涵盖4类科学图形。此外，还提供了一个包含70,000个实例的训练数据集。数据集分为Eval-Real和Eval-Synthetic两部分，分别基于现有数据集（如MathVista、MMMU和CharXiv）中的真实图形和合成图形。

特点

VisOnlyQA数据集的主要特点在于其专注于几何信息的视觉感知，这对于评估LVLMs在科学图形理解中的能力至关重要。数据集的多样性和规模使其成为研究LVLMs视觉感知能力的理想选择。此外，数据集的结构化设计，包括图像、问题、提示和答案，确保了评估的全面性和准确性。

使用方法

使用VisOnlyQA数据集时，用户可以通过Hugging Face Datasets平台加载数据集。数据集提供了详细的分割信息和示例，便于用户理解和应用。用户可以通过Python代码直接加载数据集，并根据需要选择不同的分割和任务类别。数据集的结构化格式使得用户可以轻松提取图像、问题和答案，进行进一步的分析和模型训练。

背景与挑战

背景概述

VisOnlyQA数据集由Ryo Kamoi等研究人员于2024年创建，旨在评估大型视觉语言模型（LVLMs）在科学图形的几何信息视觉感知能力。该数据集包含1,200个多选题，分布在12个视觉感知任务中，涵盖4类科学图形。此外，还提供了包含70,000个实例的训练数据集。VisOnlyQA的开发不仅填补了现有数据集在几何信息视觉感知方面的空白，还为提升LVLMs的视觉理解能力提供了重要资源。

当前挑战

VisOnlyQA数据集面临的挑战主要集中在几何信息的视觉感知上。首先，构建过程中需确保合成图形的真实性和复杂性，以有效评估模型的视觉理解能力。其次，数据集需涵盖多种科学图形的几何特征，如三角形、四边形等，这对数据标注和质量控制提出了高要求。此外，如何在保持数据多样性的同时，确保问题设计的合理性和难度适中，也是该数据集面临的重要挑战。

常用场景

经典使用场景

VisOnlyQA数据集的经典使用场景主要集中在评估大型视觉语言模型（LVLMs）对科学图形中几何信息的视觉感知能力。该数据集通过包含1200个多选题的评估集，涵盖了12种视觉感知任务和4类科学图形，为研究人员提供了一个全面的基准，用于测试和改进模型在几何信息理解方面的性能。

衍生相关工作

VisOnlyQA数据集的发布催生了一系列相关研究工作，包括对现有视觉语言模型在几何信息处理上的性能评估、模型微调策略的探索以及新型视觉语言模型的开发。例如，研究人员利用该数据集对InternVL2、Qwen2-VL和Phi-3.5-Vision等模型进行了深入分析和改进，推动了视觉语言模型在几何信息理解方面的技术进步。

数据集最近研究