five

LogicVista

收藏
arXiv2024-07-06 更新2024-07-12 收录
下载链接:
https://github.com/Yijia-Xiao/LogicVista
下载链接
链接失效反馈
官方服务:
资源简介:
LogicVista数据集由加州大学洛杉矶分校和耶鲁大学创建,旨在评估多模态大型语言模型在视觉上下文中的逻辑推理能力。该数据集包含448个多选题,涵盖5种逻辑推理任务和9种多模态能力,所有图像、指令、解决方案和推理均由人工标注和验证。数据集的创建过程严格,确保数据的完整性和质量,主要用于评估模型在日常推理、关键思维和问题解决等领域的性能。

The LogicVista dataset was developed by the University of California, Los Angeles (UCLA) and Yale University, with the core goal of evaluating the logical reasoning abilities of multimodal large language models (LLMs) in visual contexts. This dataset includes 448 multiple-choice questions spanning 5 types of logical reasoning tasks and 9 multimodal capabilities. All images, instructions, solutions, and reasoning procedures within the dataset have been manually annotated and verified. The dataset was built through a strict, standardized creation process to ensure its data integrity and quality, and it is primarily intended to assess model performance in areas such as everyday reasoning, critical thinking, and problem-solving.
提供机构:
加州大学洛杉矶分校, 耶鲁大学
创建时间:
2024-07-06
原始信息汇总

LogicVista: A Benchmark for Evaluating Multimodal Logical Reasoning

Overview

LogicVista aims to evaluate Multimodal Large Language Models (MLLMs) in fundamental logical reasoning within visual contexts. It covers five logical reasoning tasks: spatial, deductive, inductive, numeric, and mechanical reasoning, using a dataset of 448 visual multiple-choice questions.

Dataset Breakdown

The LogicVista dataset includes 448 questions, categorized as follows:

Total: 448 Questions

Capabilities

  • Diagram: 330 questions
  • OCR (Optical Character Recognition): 234 questions
  • Patterns: 105 questions
  • Graphs: 67 questions
  • Tables: 70 questions
  • 3D Shapes: 45 questions
  • Puzzles: 256 questions
  • Sequences: 76 questions
  • Physics: 69 questions

Reasoning Skills

  • Inductive Reasoning: 107 questions
  • Deductive Reasoning: 93 questions
  • Numerical Reasoning: 95 questions
  • Spatial Reasoning: 79 questions
  • Mechanical Reasoning: 74 questions

Dataset

The LogicVista dataset consists of visual questions with manual annotations detailing the image, instruction, solution, and reasoning process.

  • Location: data/
  • Contents: dataset.json and images in the images/ folder.

Evaluation

LogicVista provides an evaluation framework to assess MLLMs, including scripts for analysis and detailed instructions for replicating the evaluation process.

  • Location: eval/
  • Contents: Evaluation scripts, model answer sheets, and a directory for results.
搜集汇总
数据集介绍
main_image_url
构建方式
LogicVista数据集的构建旨在评估多模态大型语言模型(MLLMs)在视觉环境中的综合逻辑推理能力。该数据集包含了448个多项选择题,涵盖了9种不同的推理能力,包括归纳、演绎、数值、空间和机械推理。每个问题都标注了正确答案和人类编写的推理过程,使得数据集既支持开放式评估,也支持多项选择评估。数据集的收集和标注过程严格,以避免数据泄露,并确保数据的质量和完整性。
特点
LogicVista数据集的特点在于其全面性和多样性。它不仅覆盖了广泛的逻辑推理任务,还包含了多种能力,如图表、OCR、模式、图形、表格、3D形状、谜题、序列和物理等。所有图像、指令、解决方案和推理过程均由人工标注和验证,确保了数据集的准确性和可靠性。此外,数据集采用JSON格式,方便检索和处理。
使用方法
LogicVista数据集的使用方法包括两个评估策略:多项选择题(MCQ)评估和开放式评估。MCQ评估允许快速评估多模态语言模型(MLLMs)提供的答案,而开放式评估则捕捉了MLLMs响应的细微差别,并识别推理步骤的正确性或错误。此外,数据集还提供了一个基于LLM的多项选择答案提取器,用于处理MLLMs生成的非确定性开放式响应,从而实现更全面的模型评估。
背景与挑战
背景概述
LogicVista数据集由加州大学洛杉矶分校和耶鲁大学的研究人员于2024年提出,旨在评估多模态大型语言模型(MLLMs)在视觉环境中的逻辑推理能力。该数据集的创建填补了现有评估基准中缺乏对MLLMs逻辑推理能力系统评估的空白,这对于导航和解决谜题等活动至关重要。LogicVista通过5个逻辑推理任务,涵盖9种不同的能力,使用448个多项选择题对MLLMs的一般逻辑认知能力进行了评估。每个问题都附有正确答案和人工编写的推理过程,使得开放式和多项选择评估成为可能。LogicVista的创建为相关领域的研究提供了重要的工具和参考,推动了多模态语言模型在逻辑推理任务上的发展。
当前挑战
LogicVista数据集的挑战主要包括两个方面:1)所解决的领域问题的挑战,即MLLMs在逻辑推理任务上的表现普遍不佳,很多模型在推理任务上的得分甚至低于随机猜测,这表明现有的训练数据和评估方法需要改进,以更好地提升模型的逻辑推理能力;2)构建过程中的挑战,例如数据收集和标注的难度,以及如何有效地防止数据泄露等。
常用场景
经典使用场景
LogicVista数据集主要用于评估多模态大型语言模型(MLLMs)在视觉环境中的逻辑推理能力。该数据集涵盖了5种逻辑推理任务,包括归纳推理、演绎推理、数值推理、空间推理和机械推理,共包含448个多项选择题。每个问题都标注了正确答案和人类编写的推理过程,使得对模型性能的评估既可以是开放式的,也可以是多项选择的。LogicVista数据集的提出填补了多模态模型在逻辑推理能力评估方面的空白,为研究和开发更高级的多模态人工智能模型提供了重要的数据支持。
解决学术问题
LogicVista数据集的提出解决了多模态大型语言模型在逻辑推理能力评估方面的不足。现有的多模态模型评估主要集中在视觉识别、文本理解和图像描述等感知任务上,而忽略了逻辑推理这一重要能力。LogicVista数据集通过设计多种逻辑推理任务,全面评估了MLLMs的逻辑推理能力,为多模态模型的训练和评估提供了新的方向。
衍生相关工作
LogicVista数据集的提出推动了多模态模型逻辑推理能力评估的相关研究。例如,MathVista数据集专注于评估多模态模型在数学推理方面的能力,而LogicVista则更全面地评估了MLLMs在多种逻辑推理任务上的能力。这些数据集的提出为研究和开发更高级的多模态人工智能模型提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作