VisuLogic
收藏github2025-04-10 更新2025-04-09 收录
下载链接:
https://github.com/VisuLogic-Benchmark/VisuLogic-Eval
下载链接
链接失效反馈官方服务:
资源简介:
第一个将视觉感知与逻辑推理相结合的基准,包含1,000个精心设计的问题,涵盖6个领域和23个子类别,旨在避免语言偏见,确保任务依赖真正的视觉推理。
The first benchmark that integrates visual perception and logical reasoning contains 1,000 meticulously designed questions spanning 6 domains and 23 subcategories. It is designed to avoid linguistic biases, ensuring that tasks rely solely on genuine visual reasoning.
创建时间:
2025-04-07
原始信息汇总
VisuLogic 数据集概述
基本信息
- 数据集名称: VisuLogic
- 发布日期: 2025-04-08
- 维护团队: VisuLogic-Benchmark
- 联系方式:
- Jiahao Wang: wjhwdscience@stu.xjtu.edu.cn
- Weiye Xu: ustcxwy0271@mail.ustc.edu.cn
数据集特点
- 核心挑战: 首个整合视觉感知与逻辑推理的多模态评估基准
- 严谨设计: 包含6个领域、24个子类别的1,000个精心设计的问题
- 抗语言捷径: 需要真正的多模态理解的视觉中心推理任务
- 人类对齐评估:
- 人类准确率: >50.0%
- SOTA MLLMs准确率: <30%
数据集内容
- 数据规模: 1,000个问题
- 领域覆盖: 6个主要领域
- 子类别: 24个
获取方式
- Hugging Face数据集: https://huggingface.co/datasets/VisuLogic/VisuLogic
- GitHub仓库: https://github.com/VisuLogic-Benchmark/VisuLogic-Eval.git
评估方法
-
环境准备: bash git clone https://github.com/VisuLogic-Benchmark/VisuLogic-Eval.git pip install -r requirements.txt
-
运行评估: bash cd scripts bash eval_qwen2.5vl_7b_multi.sh
引用格式
bibtex @misc{visulogic, title = {VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models}, author = {VisuLogic-Benchmark}, howpublished = {url{https://github.com/VisuLogic-Benchmark/VisuLogic-Eval}}, year = {2025}, note = {Accessed: 2025-04-08} }
相关资源
- 项目主页: https://visulogic-benchmark.github.io/VisuLogic
- 排行榜: https://visulogic-benchmark.github.io/VisuLogic/ (即将推出)
待发布内容
- [ ] 训练代码
- [ ] 研究论文
- [ ] 训练数据集
- [ ] 模型检查点
搜集汇总
数据集介绍

构建方式
VisuLogic数据集的构建过程体现了多模态推理评估的前沿理念,研究团队通过跨学科协作精心设计了涵盖6大领域、24个子类别的1,000个视觉逻辑问题。每个问题都经过严格的视觉中心化处理,确保任务必须依赖真实的视觉理解而非语言捷径。数据集采用层次化标注体系,所有样本均通过专家验证并匹配人类认知基准,其中人工标注准确率超过50%,为评估多模态大语言模型提供了可靠标准。
特点
该数据集开创性地融合视觉感知与逻辑推理,其核心价值在于突破传统文本主导的评估范式。问题设计强调视觉依赖性,当前最先进的多模态大语言模型在此基准上的准确率不足30%,显著区别于人类表现。数据集具有精细的领域划分和难度梯度,每个样本均包含视觉线索与逻辑约束的复杂交互,为模型的多模态理解能力提供了多维度的评估标尺。
使用方法
研究者可通过官方GitHub仓库获取标准化评估工具链,系统要求Python环境及指定依赖库。评估流程采用模块化设计,用户既可运行预设的模型测试脚本,也能自定义评估参数。典型使用场景包括:克隆代码库后安装依赖项,进入scripts目录执行对应模型的评估脚本,如针对Qwen2.5-VL-Instruct模型运行预配置的bash脚本。所有评估结果将自动对齐人类表现基准线,支持细粒度的能力维度分析。
背景与挑战
背景概述
VisuLogic数据集由VisuLogic-Benchmark团队于2025年推出,旨在评估多模态大语言模型在视觉推理任务中的表现。该数据集由西安交通大学和中国科学技术大学的研究人员联合开发,聚焦于视觉感知与逻辑推理的交叉领域,填补了现有基准测试在真实多模态理解评估上的空白。其核心研究问题在于探究模型如何整合视觉信息与逻辑规则进行复杂推理,对推动多模态人工智能发展具有重要意义。数据集包含6大领域24个子类的1000个精心设计的问题,已成为衡量模型视觉逻辑能力的重要标准。
当前挑战
VisuLogic数据集面临双重挑战:在领域问题层面,当前最先进的多模态大语言模型准确率不足30%,远低于人类50%的表现,反映出视觉逻辑推理这一核心任务的复杂性;在构建过程中,研究人员需克服视觉中心化任务设计、抗语言捷径等难题,确保每道题目都要求真正的多模态理解。数据集的创建还涉及跨领域知识整合、人类认知对齐等挑战,这些问题共同构成了推动多模态推理研究的关键瓶颈。
常用场景
经典使用场景
在人工智能领域,多模态大语言模型(MLLMs)的视觉推理能力评估一直是一个关键挑战。VisuLogic数据集通过整合视觉感知与逻辑推理,为研究者提供了一个全面评估模型在复杂视觉场景下推理能力的基准平台。该数据集包含1,000个精心设计的问题,涵盖6个领域和24个子类别,特别强调视觉中心化的推理任务,有效避免了语言捷径的影响。
衍生相关工作
VisuLogic数据集的发布催生了一系列关于多模态推理的深入研究。基于该基准,研究者们开发了多种创新模型架构和训练方法,如视觉-语言联合注意力机制、跨模态知识蒸馏等技术。这些工作显著提升了模型在视觉推理任务中的表现,同时也推动了评估标准的发展,形成了更全面、更接近人类认知水平的评价体系。
数据集最近研究
最新研究方向
在人工智能多模态学习领域,视觉与逻辑推理的深度融合正成为前沿探索的重要方向。VisuLogic基准测试集的推出填补了当前多模态大语言模型在视觉中心化逻辑推理评估方面的空白。该数据集通过精心设计的1000道跨领域问题,构建了涵盖6大领域24个子类的复杂评估体系,其反语言捷径特性要求模型必须真正理解视觉内容与逻辑关系的内在关联。值得注意的是,人类在该测试集上的准确率超过50%,而当前最先进的多模态大语言模型表现仍不足30%,这一显著差距揭示了该领域亟待突破的技术瓶颈。随着训练代码和模型检查点的陆续发布,VisuLogic有望推动多模态模型在医疗诊断、自动驾驶等需要精细视觉推理的关键场景中的应用突破。
以上内容由遇见数据集搜集并总结生成



