five

VisOnlyQA

收藏
github2024-12-03 更新2024-12-06 收录
下载链接:
https://github.com/psunlpgroup/VisOnlyQA
下载链接
链接失效反馈
官方服务:
资源简介:
VisOnlyQA 数据集用于评估大型视觉语言模型(LVLMs)在科学图形几何信息视觉感知能力上的表现。该数据集包括1200个多选题,涵盖12个视觉感知任务和4类科学图形。此外,还提供了一个包含70,000个实例的训练数据集。

The VisOnlyQA dataset is designed to evaluate the visual perception capabilities of large vision-language models (LVLMs) regarding geometric information from scientific figures. This dataset includes 1,200 multiple-choice questions, covering 12 visual perception tasks and 4 categories of scientific figures. Additionally, a training dataset containing 70,000 instances is also provided.
创建时间:
2024-11-25
原始信息汇总

VisOnlyQA 数据集概述

数据集描述

VisOnlyQA 数据集用于评估大型视觉语言模型(LVLMs)在科学图表几何信息视觉感知能力。数据集包含1200个多选题,分布在12个视觉感知任务中,涵盖4类科学图表。此外,还提供了一个包含70,000个实例的训练数据集。

数据集组成

  • Eval-Real: 包含500个实例,用于现有数据集(如MathVista、MMMU和CharXiv)中的图表问题。
  • Eval-Synthetic: 包含700个实例,用于合成图表问题。
  • Train: 包含70,000个实例,用于训练(合成图表)。

数据格式

每个实例包含以下属性:

  • decoded_image: 输入图像(PIL.Image)
  • question: 问题(无指令)
  • prompt_reasoning: 带有链式思维指令的提示
  • prompt_no_reasoning: 不使用链式思维指令的提示
  • answer: 正确答案(如True, a

元数据

  • image_path: 图像文件路径
  • image_category: 图像类别(如geometry, chemistry
  • question_type: 问题类型(single_answermultiple answers
  • task_category: 任务类别(如triangle
  • response_options: 多选选项(如[True, False], [a, b, c, d, e]
  • source: 数据集来源
  • id: 唯一ID

数据集链接

搜集汇总
数据集介绍
main_image_url
构建方式
VisOnlyQA数据集的构建旨在评估大型视觉语言模型(LVLMs)在科学图形几何信息视觉感知能力方面的表现。该数据集包括1200个多选题,分布在12个视觉感知任务中,涵盖4类科学图形。此外,还提供了一个包含70,000个实例的训练数据集。数据集分为Eval-Real和Eval-Synthetic两部分,分别基于现有数据集(如MathVista、MMMU和CharXiv)中的真实图形和合成图形。
特点
VisOnlyQA数据集的主要特点在于其专注于几何信息的视觉感知,这对于评估LVLMs在科学图形理解中的能力至关重要。数据集的多样性和规模使其成为研究LVLMs视觉感知能力的理想选择。此外,数据集的结构化设计,包括图像、问题、提示和答案,确保了评估的全面性和准确性。
使用方法
使用VisOnlyQA数据集时,用户可以通过Hugging Face Datasets平台加载数据集。数据集提供了详细的分割信息和示例,便于用户理解和应用。用户可以通过Python代码直接加载数据集,并根据需要选择不同的分割和任务类别。数据集的结构化格式使得用户可以轻松提取图像、问题和答案,进行进一步的分析和模型训练。
背景与挑战
背景概述
VisOnlyQA数据集由Ryo Kamoi等研究人员于2024年创建,旨在评估大型视觉语言模型(LVLMs)在科学图形的几何信息视觉感知能力。该数据集包含1,200个多选题,分布在12个视觉感知任务中,涵盖4类科学图形。此外,还提供了包含70,000个实例的训练数据集。VisOnlyQA的开发不仅填补了现有数据集在几何信息视觉感知方面的空白,还为提升LVLMs的视觉理解能力提供了重要资源。
当前挑战
VisOnlyQA数据集面临的挑战主要集中在几何信息的视觉感知上。首先,构建过程中需确保合成图形的真实性和复杂性,以有效评估模型的视觉理解能力。其次,数据集需涵盖多种科学图形的几何特征,如三角形、四边形等,这对数据标注和质量控制提出了高要求。此外,如何在保持数据多样性的同时,确保问题设计的合理性和难度适中,也是该数据集面临的重要挑战。
常用场景
经典使用场景
VisOnlyQA数据集的经典使用场景主要集中在评估大型视觉语言模型(LVLMs)对科学图形中几何信息的视觉感知能力。该数据集通过包含1200个多选题的评估集,涵盖了12种视觉感知任务和4类科学图形,为研究人员提供了一个全面的基准,用于测试和改进模型在几何信息理解方面的性能。
衍生相关工作
VisOnlyQA数据集的发布催生了一系列相关研究工作,包括对现有视觉语言模型在几何信息处理上的性能评估、模型微调策略的探索以及新型视觉语言模型的开发。例如,研究人员利用该数据集对InternVL2、Qwen2-VL和Phi-3.5-Vision等模型进行了深入分析和改进,推动了视觉语言模型在几何信息理解方面的技术进步。
数据集最近研究
最新研究方向
近年来,视觉语言模型(LVLMs)在处理几何信息方面的能力成为研究焦点。VisOnlyQA数据集的引入,旨在评估大型视觉语言模型在科学图形几何信息视觉感知上的表现。该数据集通过1200个多选题,涵盖12种视觉感知任务和4类科学图形,揭示了当前模型在几何信息处理上的不足。这一研究不仅推动了视觉语言模型在几何信息理解上的进步,也为未来模型优化提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作