five

ReasonBench

收藏
arXiv2025-08-01 更新2025-08-05 收录
下载链接:
https://huggingface.co/datasets/cistine/ReasonBench
下载链接
链接失效反馈
官方服务:
资源简介:
ReasonBench是一个包含1613个真实世界图形推理问题的数据集,旨在评估视觉语言模型(VLMs)在复杂图形推理任务中的性能。数据集从三个主要来源收集:中国公务员行政职业能力测验、门萨智力测试和拉文渐进矩阵。ReasonBench涵盖11个认知维度,进一步细分为29个不同的任务类型。该数据集的多源层次结构使得可以全面评估VLMs在多种推理范式下的分析能力。

ReasonBench is a dataset containing 1,613 real-world graphical reasoning problems, designed to evaluate the performance of Vision-Language Models (VLMs) on complex graphical reasoning tasks. The dataset is collected from three primary sources: China's Civil Servant Administrative Professional Aptitude Test, Mensa IQ tests, and Raven's Progressive Matrices. ReasonBench covers 11 cognitive dimensions, which are further subdivided into 29 distinct task types. The multi-source hierarchical structure of this dataset enables a comprehensive assessment of VLMs' analytical capabilities across diverse reasoning paradigms.
提供机构:
北京电子科技学院
创建时间:
2025-08-01
原始信息汇总

ReasonBench 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 中文、英文
  • 标签: VLM、benchmark、graphic-reasoning、intelligence-test

数据集简介

ReasonBench 是一个用于评估视觉语言模型(VLMs)在复杂图形推理任务表现的基准测试。数据集包含从真实智力测试中收集的 1,613个问题,覆盖11个核心认知维度和29种任务类型,为评估VLMs的空间、关系和抽象推理能力提供综合框架。

数据集结构

核心认知维度与任务类型

认知维度 任务类型 数量
位置规律 平移 94
旋转 56
组合 30
样式规律 穿越 54
加减法 67
黑白运算 63
属性规律 对称 109
开闭状态 19
组合 6
数量规律 线 173
137
66
元素 94
组合 50
空间规律 立方体 109
3D 46
多面体 17
三视图 40
剖视图 35
空间数量变换 10
特殊规律 2D组合 31
图形关系 40
字母数字 字母数字 27
黑白块 黑白块 32
其他规律 综合 34
门萨 任务1 35
任务2 39
瑞文 任务1 40
任务2 60

输入格式

格式 描述
集成格式 问题与选项呈现在单个图形中,便于模型整体处理
分离格式 将问题与选项拆分为多个图形,测试分步推理能力

核心特性

  • 多格式评估: 支持整体式和分隔式两种输入格式
  • 完全开放: 公开所有格式的图片URL(题目、选项、题目+选项)
  • 人类基准: 提供人类准确率作为参考基准
  • 多样化任务: 覆盖11个认知维度的29种推理任务

论文信息

  • 标题: Oedipus and the Sphinx: Benchmarking and Improving Visual Language Models for Complex Graphic Reasoning
  • 作者: Jianyi Zhang, Xu Ji, Ziyin Zhou, Yuchen Zhou, Shubo Shi, Haoyu Wu, Zhen Li, Shizhao Liu
  • arXiv链接: https://arxiv.org/abs/2508.00323
  • 年份: 2025
搜集汇总
数据集介绍
main_image_url
构建方式
ReasonBench数据集通过系统整合来自中国公务员能力倾向测验、门萨智力测试和瑞文渐进矩阵三大真实世界测试源的1,613道图形推理题目构建而成。研究团队采用分层抽样策略,确保题目覆盖11个核心认知维度(如位置关系、样式变换、属性识别等)和29种任务类型。数据采集过程严格遵循标准化协议,通过三重控制评估机制(包括选项均衡分布、固定应答模板和Pass@1评分标准)保证数据的可靠性与可比性。所有图形均转化为标准化API格式,确保不同视觉语言模型的输入一致性。
特点
该数据集具有多维认知覆盖性和真实场景迁移性两大核心特征。其题目设计模拟人类智力测试的复杂推理场景,涵盖从基础的空间变换到高阶的多元素关系推理等认知层次。数据分布上严格控制选项出现频率(波动范围±0.7%),并保留原始测试的6-8选项设置以维持真实评估环境。特别设计的整合与分离双输入格式(integrated/separated)支持模型输入策略的对比研究。数据标注包含详细的人类基准表现(平均准确率68.7%)和细粒度错误分析,为模型诊断提供立体化参照系。
使用方法
使用该数据集时需遵循标准化评估流程:首先将问题以整合或分离格式输入模型,采用固定提示模板确保输入一致性;模型输出需符合结构化响应格式(如<ans>optionX</ans>)。评估采用Pass@1单次尝试计分法,通过自动关键词提取分析响应内容。对于方法优化研究,建议划分200题的独立验证集进行横向对比。高级用法包括结合提出的Diagrammatic Chain-of-Thought(DiaCoT)可视化推理链进行分层次解析,或通过ReasonTune微调策略增强模型归纳推理能力。数据仓库提供完整的评估代码和人类表现基线以供参照。
背景与挑战
背景概述
ReasonBench是由北京电子科技学院的研究团队于2025年提出的首个专注于结构化图形推理任务的评估基准。该数据集包含来自真实世界智力测试的1,613个问题,覆盖位置、属性、数量和多元素任务等11个认知维度。ReasonBench的创建旨在解决现有视觉语言模型(VLMs)在复杂图形推理能力评估方面的不足,特别是在空间、关系和抽象推理方面的表现。该数据集通过系统性地评估11个主流VLMs(包括闭源和开源模型),揭示了当前模型在复杂图形推理任务中的显著局限性,为相关领域的研究提供了重要的基准参考。
当前挑战
ReasonBench主要解决视觉语言模型在复杂图形推理任务中的评估挑战。领域问题方面的挑战包括:1)现有评估基准如Raven和CLEVR缺乏多样性,无法全面评估模型的推理能力;2)VLMs在模拟人类级图形推理能力方面存在明显缺陷,最佳模型准确率仅为27%,远低于人类基准68.7%。构建过程中的挑战包括:1)从多个真实世界智力测试来源收集和标准化1,613个问题;2)设计覆盖11个认知维度的综合评估框架;3)建立三重控制评估协议以确保测量可靠性和跨模型可比性;4)创建人类表现基线作为未来模型改进的参考。
常用场景
经典使用场景
ReasonBench作为首个专注于结构化图形推理任务的评估基准,其经典使用场景在于系统性地测评视觉语言模型(VLMs)在复杂图形推理任务中的表现。该数据集通过整合来自公务员考试、门萨智力测试等真实场景的1613道题目,覆盖位置、属性、数量等多维度推理任务,为研究者提供了标准化的测试平台。在实验中,研究者可基于11种认知维度的分层评估,精确量化模型在空间关系、抽象推理等核心能力上的优劣,尤其适用于对比不同架构VLMs在人类级图形理解任务中的差距。
解决学术问题
ReasonBench有效解决了视觉语言模型评估领域的三大学术问题:其一,填补了复杂图形推理系统性评估的空白,突破传统基准(如CLEVR)仅关注简单几何问题的局限;其二,通过三重控制评估协议(选项均衡分布、固定输入模板、Pass@1评分)消除了非认知因素干扰,提升了测评结果的可靠性;其三,建立人类表现基线(平均准确率68.7%),为模型优化提供了明确的参照系。该数据集揭示了当前顶尖VLMs平均准确率仅27%的关键缺陷,推动了针对图形认知瓶颈的改进研究。
衍生相关工作
该数据集催生了多项创新性研究:基于ReasonBench的缺陷分析,研究者提出DiaCoT和ReasonTune双优化框架,将VLMs图形推理准确率提升33.5%;其分层评估方法启发了PuzzleVQA对单/双元素推理的专项研究;数据集构建方法论被Mementos等动态推理基准借鉴。相关成果发表于NeurIPS等顶会,推动形成了「诊断-优化-验证」的VLM能力提升范式,衍生出视觉链式推理、渐进式微调等技术分支。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作