VisOnlyQA_Train

Hugging Face2024-12-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Train

下载链接

链接失效反馈

官方服务：

资源简介：

VisOnlyQA数据集旨在评估大型视觉语言模型（LVLMs）在科学图形几何信息上的视觉感知能力。它包含1,200个多选题，涉及12个视觉感知任务和4类科学图形。数据集以VLMEvalKit和Hugging Face数据集两种格式提供。Hugging Face版本包括三个部分：Eval-Real（500个实例）、Eval-Synthetic（700个实例）和Train（70,000个实例）。每个实例包含解码图像、问题、推理提示、非推理提示、答案、图像类别、问题类型、任务类别、响应选项、来源和唯一ID等特征。该数据集采用GPL-3.0许可证。

创建时间：

2024-11-29

原始信息汇总

VisOnlyQA 数据集概述

基本信息

数据集名称: VisOnlyQA
语言: 英语
许可证: GPL-3.0
多语言性: 单语种
数据规模: 1K < n < 10K
源数据集: 原始数据
任务类别:
- 多选题
- 问答
- 视觉问答
任务ID:
- 多选题问答
- 视觉问答
- 多类分类
标签:
- 多模态问答
- 图表问答
- 视觉问答
- 科学图表
- 几何图表
- 图表
- 化学

数据集结构

特征

image_path: 图像路径 (字符串)
question: 问题 (空)
answer: 答案 (字符串)
prompt_reasoning: 推理提示 (空)
prompt_no_reasoning: 无推理提示 (字符串)
image_category: 图像类别 (字符串)
task_category: 任务类别 (字符串)
question_type: 问题类型 (字符串)
response_options: 响应选项 (序列字符串)
source: 数据源 (字符串)
id: 唯一ID (字符串)
decoded_image: 解码图像 (图像)

数据分割

syntheticgeometry__triangle: 10000个样本，328198888字节
syntheticgeometry__quadrilateral: 10000个样本，327409666字节
syntheticgeometry__length: 10000个样本，411043854字节
syntheticgeometry__angle: 10000个样本，397038300字节
syntheticgeometry__area: 10000个样本，400289876字节
3d__size: 10000个样本，1930906822字节
3d__angle: 10000个样本，4093207706字节

数据集大小

下载大小: 7226264280字节
数据集大小: 7888095112字节

配置

config_name: default
- data_files:
  - split: syntheticgeometry__triangle, path: data/syntheticgeometry__triangle-*
  - split: syntheticgeometry__quadrilateral, path: data/syntheticgeometry__quadrilateral-*
  - split: syntheticgeometry__length, path: data/syntheticgeometry__length-*
  - split: syntheticgeometry__angle, path: data/syntheticgeometry__angle-*
  - split: syntheticgeometry__area, path: data/syntheticgeometry__area-*
  - split: 3d__size, path: data/3d__size-*
  - split: 3d__angle, path: data/3d__angle-*

搜集汇总

数据集介绍

构建方式

VisOnlyQA_Train数据集的构建旨在评估大型视觉语言模型（LVLMs）在科学图形几何信息视觉感知方面的能力。该数据集由专家生成，涵盖了12个视觉感知任务，涉及4类科学图形，包括几何图形、化学图表等。训练集包含70,000个实例，主要基于合成图形生成，确保了数据集的多样性和复杂性。每个实例包含图像路径、问题、答案、提示推理等信息，旨在全面评估模型在视觉问答任务中的表现。

特点

VisOnlyQA_Train数据集的主要特点在于其多模态性质，结合了图像和文本信息，适用于视觉问答（VQA）任务。数据集涵盖了多种科学图形的几何信息，如三角形、四边形、角度等，具有高度的专业性和复杂性。此外，数据集提供了两种不同的提示格式，分别要求模型进行推理和不进行推理，从而能够更全面地评估模型的性能。

使用方法

VisOnlyQA_Train数据集可以通过Hugging Face的datasets库进行加载和使用。用户可以根据需要选择不同的数据分割，如几何图形的三角形、四边形等，进行模型训练或评估。使用时，建议结合数据集提供的提示格式，确保模型在推理和不推理两种模式下的表现都能得到评估。此外，数据集还提供了详细的元数据，如图像类别、任务类别等，便于用户进行更精细的分析和研究。

背景与挑战

背景概述

VisOnlyQA数据集由Ryo Kamoi等人于2024年创建，旨在评估大型视觉语言模型（LVLMs）在科学图形几何信息视觉感知方面的能力。该数据集的核心研究问题聚焦于LVLMs在处理几何信息时的局限性，特别是针对科学图形的视觉理解。VisOnlyQA不仅为视觉问答（VQA）领域提供了新的评估基准，还通过包含70,000个训练实例和1,200个多选题，推动了多模态学习的发展。该数据集的发布对提升视觉语言模型的几何信息处理能力具有重要意义，尤其是在科学图形的理解和应用领域。

当前挑战

VisOnlyQA数据集在构建过程中面临多项挑战。首先，如何设计有效的多选题以准确评估模型对几何信息的视觉感知能力是一个关键问题。其次，数据集的多样性要求涵盖多种科学图形类别，如几何图形、化学结构等，这增加了数据标注和处理的复杂性。此外，确保数据集的合成部分与真实数据之间的平衡，以及处理不同图形类型的视觉特征，也是构建过程中的重要挑战。最后，如何在不同版本的VisOnlyQA数据集中保持一致性，以便于模型评估和结果复现，也是一项技术难题。

常用场景

经典使用场景

VisOnlyQA_Train数据集的经典使用场景主要集中在视觉语言模型的评估与训练上。该数据集通过提供大量关于几何信息的多选题，旨在测试和提升大型视觉语言模型（LVLMs）在科学图表中视觉感知几何信息的能力。研究者可以利用该数据集进行模型训练，以提高模型在处理几何图形、化学结构等科学图表时的准确性和鲁棒性。

解决学术问题

VisOnlyQA_Train数据集解决了视觉语言模型在处理几何信息时的视觉感知难题。通过提供大量关于几何图形和科学图表的多选题，该数据集帮助研究者识别和改进模型在视觉感知方面的不足，特别是在处理复杂几何信息时的表现。这不仅推动了视觉语言模型的发展，也为相关领域的学术研究提供了宝贵的资源。

衍生相关工作

基于VisOnlyQA_Train数据集，研究者们已经开展了一系列相关工作，包括改进视觉语言模型的架构设计、优化模型在几何信息处理上的性能，以及开发新的评估方法。这些工作不仅提升了模型在处理几何信息时的准确性，还为视觉语言模型的进一步发展提供了新的思路和方法。此外，该数据集还激发了在多模态学习、图表理解和智能教育等领域的深入研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集