VRC-Bench

github2025-01-13 更新2025-01-14 收录

下载链接：

https://github.com/mbzuai-oryx/LlamaV-o1

下载链接

链接失效反馈

官方服务：

资源简介：

VRC-Bench是一个多模态多步推理任务的基准测试，涵盖了八个不同的类别（视觉推理、数学与逻辑推理、社会与文化背景、医学影像、图表与图解理解、OCR与文档理解、复杂视觉感知和科学推理），包含超过1,000个具有挑战性的样本和4,000多个推理步骤。

VRC-Bench is a benchmark for multimodal multi-step reasoning tasks, covering eight distinct categories: Visual Reasoning, Mathematical and Logical Reasoning, Social and Cultural Context, Medical Imaging, Chart and Diagram Understanding, OCR and Document Understanding, Complex Visual Perception, and Scientific Reasoning. It includes over 1,000 challenging samples and more than 4,000 reasoning steps.

创建时间：

2025-01-09

原始信息汇总

LlamaV-o1 数据集概述

数据集简介

LlamaV-o1 是一个大型多模态模型，专注于多步视觉推理任务。该模型在多个多模态基准测试中表现优异，特别是在 VRC-Bench 上超越了多个现有模型。

数据集亮点

多模态推理能力：LlamaV-o1 在 VRC-Bench 上超越了 Gemini-1.5-flash、GPT-4o-mini、Llama-3.2-Vision-Instruct、Mulberry 和 Llava-CoT 等模型。
多基准测试表现：在 MMStar、MMBench、MMVet、MathVista、AI2D 和 Hallusion 六个挑战性多模态基准测试中，LlamaV-o1 也表现优异。

数据集贡献

VRC-Bench 基准测试：该基准测试是首个用于评估多模态多步推理任务的数据集，涵盖八个不同类别（视觉推理、数学与逻辑推理、社会与文化背景、医学影像、图表与图解理解、OCR 与文档理解、复杂视觉感知和科学推理），包含超过 1,000 个挑战性样本和 4,000 多个推理步骤。
新颖的评估指标：该指标在单个步骤的层面上评估推理质量，强调正确性和逻辑一致性。
多步课程学习与束搜索结合方法：LlamaV-o1 结合了课程学习的结构化进展和束搜索的效率，确保在复杂多步视觉推理任务中的准确性和效率。

数据集结构

类别：数据集涵盖数学与逻辑推理、科学推理、视觉感知、医学影像、文化理解、文档 OCR、图表与图解理解等多个领域。
样本数量：超过 1,000 个挑战性样本和 4,000 多个推理步骤。

数据集示例

示例图像：展示了数据集中的多个示例，涵盖不同领域的推理任务。

数据集结果

VRC-Bench 表现：LlamaV-o1 在最终答案准确性和推理步骤表现上均优于其他模型。
多基准测试表现：LlamaV-o1 在六个基准测试中的平均得分领先于其他开源模型。

数据集使用

预训练权重：可从 HuggingFace 下载 omkarthawakar/LlamaV-o1。
数据集下载：可从 HuggingFace 下载 omkarthawakar/VRC-Bench。
推理代码：提供了示例推理代码，展示如何在图像上进行多步推理。

引用

如果使用该数据集，请引用以下论文：

@misc{thawakar2025llamavo1, title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs}, author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawakar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan}, year={2025}, eprint={2501.06186}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.06186}, }

许可证

该项目主要遵循 Apache 2.0 许可证，详细信息请参阅 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

VRC-Bench数据集的构建基于多模态多步推理任务的需求，涵盖了八个不同领域的挑战性样本，包括视觉推理、数学与逻辑推理、社会与文化背景、医学影像、图表与图解理解、OCR与文档理解、复杂视觉感知以及科学推理。数据集包含超过1,000个样本和4,000多个推理步骤，旨在评估模型在复杂任务中的推理能力。通过结合课程学习和束搜索的多模态推理方法，确保了模型在推理路径上的优化与逐步技能提升。

特点

VRC-Bench数据集的特点在于其多样性和复杂性，涵盖了多个领域的推理任务，能够全面评估模型的多模态推理能力。数据集不仅关注最终答案的准确性，还引入了新颖的评估指标，强调推理步骤的正确性和逻辑连贯性。此外，数据集的样本设计具有挑战性，能够有效测试模型在复杂场景下的表现。

使用方法

VRC-Bench数据集的使用方法包括下载预训练模型权重和数据集文件。用户可以通过Hugging Face平台获取LlamaV-o1模型的预训练权重和VRC-Bench数据集。推理过程中，用户可以使用提供的示例代码加载模型并进行多步推理任务。此外，数据集还可用于模型的微调训练，具体方法可参考相关代码库和文档。

背景与挑战

背景概述

VRC-Bench数据集由Mohamed bin Zayed人工智能大学的研究团队于2025年发布，旨在推动多模态多步推理任务的研究。该数据集由Omkar Thawakar、Dinura Dissanayake等研究人员主导开发，涵盖了视觉推理、数学与逻辑推理、社会与文化背景、医学影像、图表理解、OCR与文档理解、复杂视觉感知及科学推理等八大领域，包含超过1,000个挑战性样本和4,000多个推理步骤。VRC-Bench的推出填补了多模态推理评估领域的空白，为大型多模态模型（如LlamaV-o1）的性能评估提供了标准化基准，显著推动了多模态推理技术的发展。

当前挑战

VRC-Bench面临的挑战主要体现在两个方面。首先，多模态多步推理任务本身具有高度复杂性，要求模型不仅能够处理视觉和文本信息的融合，还需在推理过程中保持逻辑连贯性。其次，数据集的构建过程中，研究人员需确保样本的多样性和代表性，涵盖从基础视觉任务到复杂科学推理的广泛领域。此外，设计一种能够评估推理步骤质量的评价指标也极具挑战性，需兼顾正确性和逻辑一致性。这些挑战共同推动了多模态推理技术的创新与突破。

常用场景

经典使用场景

VRC-Bench数据集在视觉推理和多模态任务评估中具有广泛的应用。其经典使用场景包括对大型多模态模型（LMMs）在复杂推理任务中的表现进行评估，尤其是在涉及数学逻辑推理、科学推理、视觉感知以及医学影像等领域的多步骤推理任务中。通过提供多样化的任务类别和丰富的样本，VRC-Bench能够全面测试模型在不同情境下的推理能力和逻辑一致性。

解决学术问题

VRC-Bench解决了多模态模型在复杂推理任务中表现评估的难题。通过引入多步骤推理任务和多样化的任务类别，该数据集为研究者提供了一个标准化的评估平台，能够有效衡量模型在视觉推理、逻辑推理和跨领域理解等方面的能力。其新颖的评估指标不仅关注最终答案的准确性，还强调推理步骤的正确性和逻辑连贯性，推动了多模态推理研究的深入发展。

衍生相关工作

VRC-Bench的发布催生了一系列相关研究工作，尤其是在多模态推理模型的优化和改进方面。基于该数据集，研究者提出了多种新的训练方法，如结合课程学习和束搜索的多步骤推理策略。此外，VRC-Bench还为开源社区提供了基准测试平台，推动了LlamaV-o1等开源模型的发展，使其在复杂推理任务中表现优异，甚至超越了部分闭源模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集