VisOnlyQA_Eval_Real

Hugging Face2024-12-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Eval_Real

下载链接

链接失效反馈

官方服务：

资源简介：

VisOnlyQA数据集用于评估大型视觉语言模型在科学图形几何信息视觉感知方面的能力。数据集包含1200个多选题，分布在12个视觉感知任务中，涵盖几何、化学、图表等4类科学图形。数据集分为Eval-Real、Eval-Synthetic和Train三个部分，分别包含500、700和70,000个实例。每个实例包含图像、问题、提示（有无推理）、答案等特征。

The VisOnlyQA dataset is designed to evaluate the visual perception capabilities of large vision-language models regarding geometric information in scientific figures. The dataset includes 1,200 multiple-choice questions spanning 12 visual perception tasks, covering four categories of scientific figures: geometry, chemistry, diagrams, and charts. The dataset is split into three subsets: Eval-Real, Eval-Synthetic, and Train, which contain 500, 700, and 70,000 instances respectively. Each instance includes features such as the image, question, prompt (with or without reasoning), and answer.

创建时间：

2024-12-01

原始信息汇总

VisOnlyQA_Eval_Real 数据集概述

基本信息

数据集名称: VisOnlyQA_Eval_Real
语言: 英语 (en)
许可证: GPL-3.0
多语言性: 单语种 (monolingual)
数据集大小: n<1K
数据来源: 原始数据 (original)

任务类别

多选题 (multiple-choice)
问答 (question-answering)
视觉问答 (visual-question-answering)

任务ID

多选题问答 (multiple-choice-qa)
视觉问答 (visual-question-answering)
多类别分类 (multi-class-classification)

数据集特征

image_path: 图像路径 (string)
question: 问题 (string)
answer: 答案 (string)
prompt_reasoning: 带有推理指令的提示 (string)
prompt_no_reasoning: 不带推理指令的提示 (string)
image_category: 图像类别 (string)
task_category: 任务类别 (string)
question_type: 问题类型 (string)
response_options: 多选题选项 (sequence: string)
source: 数据来源 (string)
id: 唯一ID (string)
decoded_image: 解码后的图像 (image)

数据集分割

geometry__triangle: 50个样本，242889字节
geometry__quadrilateral: 50个样本，210787字节
geometry__length: 50个样本，271748字节
geometry__angle: 50个样本，255692字节
geometry__area: 50个样本，255062字节
geometry__diameter_radius: 50个样本，269208字节
chemistry__shape_single: 50个样本，1198593字节
chemistry__shape_multi: 50个样本，1855862字节
charts__extraction: 50个样本，3735234字节
charts__intersection: 50个样本，2896121字节

数据集配置

config_name: default
data_files:
- geometry__triangle: data/geometry__triangle-*
- geometry__quadrilateral: data/geometry__quadrilateral-*
- geometry__length: data/geometry__length-*
- geometry__angle: data/geometry__angle-*
- geometry__area: data/geometry__area-*
- geometry__diameter_radius: data/geometry__diameter_radius-*
- chemistry__shape_single: data/chemistry__shape_single-*
- chemistry__shape_multi: data/chemistry__shape_multi-*
- charts__extraction: data/charts__extraction-*
- charts__intersection: data/charts__intersection-*

数据集大小

下载大小: 8276769字节
数据集大小: 11191196字节

搜集汇总

数据集介绍

构建方式

VisOnlyQA_Eval_Real数据集的构建基于专家生成的方式，旨在评估大型视觉语言模型（LVLMs）在科学图表中几何信息的视觉感知能力。该数据集包含了1200个多选题，分布在12个视觉感知任务中，涵盖了4类科学图表，包括几何图形、化学结构、图表等。数据集的构建不仅包括了真实世界中的图表，还包含了合成图表，以确保评估的全面性和多样性。

特点

VisOnlyQA_Eval_Real数据集的主要特点在于其多模态性质，结合了图像和文本信息，旨在测试模型在视觉和语言理解上的综合能力。数据集中的每个实例都包含了图像路径、问题、答案、推理提示等多种特征，支持多种任务类型，如多选题、视觉问答等。此外，数据集还提供了详细的元数据，如图像类别、任务类别等，便于研究者进行深入分析。

使用方法

使用VisOnlyQA_Eval_Real数据集时，研究者可以通过Hugging Face的datasets库进行加载，并根据需要选择不同的数据分割（如几何图形、化学结构等）。数据集支持多种任务类型，研究者可以根据具体需求选择合适的任务进行模型评估。此外，数据集还提供了推理提示，允许研究者测试模型在不同推理模式下的表现。

背景与挑战

背景概述

VisOnlyQA数据集由Ryo Kamoi等人于2024年创建，旨在评估大型视觉语言模型（LVLMs）在科学图形几何信息视觉感知方面的能力。该数据集的核心研究问题是LVLMs在处理几何信息时的局限性，特别是在多模态问答任务中的表现。VisOnlyQA包含1,200个多选题，涵盖12个视觉感知任务，涉及几何、化学、图表等多个科学图形的分类。该数据集的发布不仅为视觉问答领域提供了新的评估基准，还推动了多模态学习模型在科学领域的应用研究。

当前挑战

VisOnlyQA数据集面临的挑战主要集中在两个方面。首先，构建过程中需要生成大量高质量的科学图形，并确保这些图形在几何和化学等领域的准确性和多样性，这对数据生成和标注提出了高要求。其次，多模态问答任务本身具有复杂性，模型需要在视觉和语言信息之间进行有效整合，以准确回答涉及几何信息的复杂问题。此外，数据集的多样性和规模也增加了模型训练和评估的难度，尤其是在处理不同类型的科学图形时，模型的泛化能力面临严峻考验。

常用场景

经典使用场景

VisOnlyQA_Eval_Real数据集的经典使用场景主要集中在评估大型视觉语言模型（LVLMs）在科学图表中几何信息的视觉感知能力。该数据集通过12个视觉感知任务，涵盖了4类科学图表，提供了1,200个多选题，用于测试模型在几何图形、化学结构、图表等领域的理解能力。

解决学术问题

VisOnlyQA_Eval_Real数据集解决了大型视觉语言模型在处理几何信息时的视觉感知难题。通过提供多样化的科学图表和多选题，该数据集帮助研究者评估和改进模型在复杂视觉信息中的推理能力，推动了多模态学习领域的发展。

衍生相关工作

基于VisOnlyQA_Eval_Real数据集，研究者们开发了多种改进视觉语言模型的方法，如增强模型对几何图形的识别能力、优化多模态数据处理算法等。此外，该数据集还激发了在教育、科研等领域的新应用探索，推动了多模态学习的进一步研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集