VisOnlyQA_Eval_Synthetic

Hugging Face2024-12-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ryokamoi/VisOnlyQA_Eval_Synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

VisOnlyQA数据集用于评估大型视觉语言模型在科学图形几何信息视觉感知方面的能力。数据集包含1200个多选题，分布在12个视觉感知任务中，涵盖4类科学图形。数据集分为三个部分：Eval-Real（500个实例，基于现有数据集的图形）、Eval-Synthetic（700个实例，基于合成图形）和Train（70,000个实例，用于训练的合成图形）。每个实例包含图像、问题、提示（有无推理）、正确答案等特征。

创建时间：

2024-11-29

原始信息汇总

VisOnlyQA_Eval_Synthetic 数据集概述

基本信息

数据集名称: VisOnlyQA_Eval_Synthetic
语言: 英语 (en)
许可证: GPL-3.0
多语言性: 单语种 (monolingual)
数据集大小: n<1K
来源: 原始数据 (original)

任务类别

多选题 (multiple-choice)
问答 (question-answering)
视觉问答 (visual-question-answering)

任务标识

多选题问答 (multiple-choice-qa)
视觉问答 (visual-question-answering)
多类别分类 (multi-class-classification)

数据集特征

image_path: 图像路径 (string)
question: 问题 (string)
answer: 答案 (string)
prompt_reasoning: 带有推理指令的提示 (string)
prompt_no_reasoning: 不带推理指令的提示 (string)
image_category: 图像类别 (string)
task_category: 任务类别 (string)
question_type: 问题类型 (string)
response_options: 多选题选项 (sequence: string)
source: 数据来源 (string)
id: 唯一ID (string)
decoded_image: 解码后的图像 (image)

数据集分割

syntheticgeometry__triangle: 100个样本，3571106.0字节
syntheticgeometry__quadrilateral: 100个样本，3494675.0字节
syntheticgeometry__length: 100个样本，3782516.0字节
syntheticgeometry__angle: 100个样本，3194138.0字节
syntheticgeometry__area: 100个样本，4112922.0字节
3d__size: 100个样本，19363322.0字节
3d__angle: 100个样本，40969270.0字节

数据集大小

下载大小: 71473716字节
数据集大小: 78487949.0字节

配置

config_name: default
- data_files:
  - syntheticgeometry__triangle: data/syntheticgeometry__triangle-*
  - syntheticgeometry__quadrilateral: data/syntheticgeometry__quadrilateral-*
  - syntheticgeometry__length: data/syntheticgeometry__length-*
  - syntheticgeometry__angle: data/syntheticgeometry__angle-*
  - syntheticgeometry__area: data/syntheticgeometry__area-*
  - 3d__size: data/3d__size-*
  - 3d__angle: data/3d__angle-*

搜集汇总

数据集介绍

构建方式

VisOnlyQA_Eval_Synthetic数据集的构建旨在评估大规模视觉语言模型（LVLMs）在科学图形几何信息视觉感知方面的能力。该数据集包含1,200个多选题，涵盖12个视觉感知任务，涉及4类科学图形。数据集的构建过程由专家生成，确保了问题和答案的高质量。数据集分为多个子集，每个子集对应不同的几何任务，如三角形、四边形、长度、角度和面积等，每个子集包含100个实例。

特点

VisOnlyQA_Eval_Synthetic数据集的主要特点在于其多模态性质，结合了图像和文本信息，旨在测试模型对几何信息的视觉理解能力。数据集包含了详细的元数据，如图像路径、问题类型、任务类别和响应选项等，便于模型进行多选题和视觉问答任务。此外，数据集提供了两种提示方式，分别要求模型进行推理和不进行推理，从而全面评估模型的能力。

使用方法

使用VisOnlyQA_Eval_Synthetic数据集时，用户可以通过Hugging Face的`load_dataset`函数加载数据集，并根据需要选择不同的子集进行模型评估。数据集提供了图像、问题、提示和答案等特征，用户可以根据这些特征设计模型输入。为了确保结果的可复现性，建议用户在使用时明确指出所使用的数据集版本，并参考相关文档进行模型评估和结果报告。

背景与挑战

背景概述

VisOnlyQA_Eval_Synthetic数据集由Ryo Kamoi等人于2024年创建，旨在评估大规模视觉语言模型（LVLMs）在科学图表几何信息视觉感知方面的能力。该数据集的核心研究问题是LVLMs在处理几何信息时的局限性，特别是针对科学图表中的几何图形。通过提供1200个多选题，涵盖12种视觉感知任务和4类科学图表，VisOnlyQA_Eval_Synthetic为研究者提供了一个全面的评估工具。该数据集的创建不仅推动了视觉语言模型在科学领域的应用，还为未来的模型改进提供了宝贵的基准数据。

当前挑战

VisOnlyQA_Eval_Synthetic数据集面临的主要挑战包括：1) 如何有效生成高质量的合成图表，以确保问题的多样性和复杂性；2) 如何设计多选题，使其既能测试模型的视觉感知能力，又能评估其逻辑推理能力；3) 如何确保数据集的公平性和一致性，避免因图表设计或问题表述导致的偏差。此外，数据集的构建过程中还需克服图表生成、问题编写和答案标注等多个环节的技术难题，以确保数据集的高质量和实用性。

常用场景

经典使用场景

VisOnlyQA_Eval_Synthetic数据集的经典使用场景主要集中在评估大型视觉语言模型（LVLMs）在处理科学图形中几何信息的能力。该数据集通过提供1200个多选题，涵盖了12种视觉感知任务，涉及几何图形、化学图表等多种科学图形，旨在测试模型对这些复杂视觉信息的理解与推理能力。

解决学术问题

该数据集解决了大型视觉语言模型在处理几何信息时的视觉感知能力不足的问题。通过提供多样化的几何图形和科学图表，VisOnlyQA_Eval_Synthetic帮助研究者评估和改进模型在复杂视觉信息处理中的表现，推动了多模态学习领域的发展，具有重要的学术意义。

衍生相关工作

基于VisOnlyQA_Eval_Synthetic数据集，研究者们开发了多种改进视觉语言模型的方法，如增强模型对几何图形的识别能力、优化多模态数据融合技术等。此外，该数据集还激发了在多模态学习、视觉问答等领域的进一步研究，推动了相关技术的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集