VLRMBench|视觉理解数据集|自然语言处理数据集

arXiv2025-03-10 更新2025-03-12 收录

视觉理解

自然语言处理

下载链接：

https://github.com/JCruan519/VLRMBench

下载链接

链接失效反馈

资源简介：

VLRMBench是一个包含12634个问题的全面且具有挑战性的视觉语言奖励模型基准，由上海交通大学和Xiaohongshu Inc.构建。该数据集基于数学推理、幻觉理解和多图像理解三种类型的数据集，旨在全面评估视觉语言奖励模型在过程理解、结果判断和批评生成方面的能力。

提供机构：

上海交通大学

创建时间：

2025-03-10

AI搜集汇总

数据集介绍

构建方式

VLRMBench 数据集的构建过程涉及数据收集、过滤和生成三个阶段。数据收集阶段整合了来自数学推理、幻觉理解和多图像理解领域的多个数据集，共包含16,550个样本和19,343张图像。过滤阶段采用了一个联合过滤机制，利用小型的视觉语言模型（LVLM）对样本进行质量和难度的筛选。生成阶段则利用 QVQ-72B-preview 生成推理过程，并使用 GPT-4o 对推理步骤进行分割和初步验证。最终，经过规则过滤和人工检查，得到1,000个高质量的样本，用于构建特定的任务。

特点

VLRMBench 数据集的特点在于其全面性和挑战性。它涵盖了数学推理、幻觉理解和多图像理解三个领域，并设计了12个任务，共计12,634个问题。这些任务能够全面评估视觉语言奖励模型（VLRM）在过程理解、结果判断和批评生成方面的能力。VLRMBench 为 VLRM 的发展提供了一个坚实的基础，并揭示了现有模型的局限性。

使用方法

使用 VLRMBench 数据集的方法包括：1) 评估 VLRM 的过程理解能力，即判断每个推理步骤的正确性；2) 评估 VLRM 的结果判断能力，即判断最终答案的准确性；3) 评估 VLRM 的批评生成能力，即分析推理过程中的错误并生成反馈。用户可以根据自己的需求选择合适的任务和指标来评估 VLRM 的性能。

背景与挑战

背景概述

近年来，随着大型语言模型（LLMs）的迅速发展，大型视觉语言模型（LVLMs）在多模态任务中也取得了显著进展。然而，这些模型在视觉语言推理任务中仍存在推理深度不足和缺乏自我纠正机制的问题。为了缓解这一问题，奖励模型（RMs）被引入来检测模型响应中的错误，从而提升LVLMs的性能。RMs在训练和推理阶段都发挥着关键作用，包括过滤高质量样本、构建自动化数据合成管道、偏好优化、推理时缩放技术等。然而，现有的视觉语言RMs（VLRMs）基准通常只评估其能力的单个方面，限制了其全面评估和视觉语言领域的发展。为了填补这一空白，我们提出了一个全面且具有挑战性的基准，名为VLRMBench，包含12,634个问题。VLRMBench基于三种不同类型的数据集构建，涵盖数学推理、幻觉理解和多图像理解。我们设计了12个任务，分为三个主要类别，重点评估VLRMs在过程理解、结果判断和批评生成方面的能力。我们在21个开源模型和5个先进的闭源模型上进行了广泛的实验，突出了VLRMBench带来的挑战。例如，在“预测未来”这一二元分类任务中，先进的GPT-4o仅实现了76.0%的准确率。此外，我们还进行了全面的分析研究，为VLRMs的未来发展提供了宝贵的见解。我们预计VLRMBench将成为推进VLRMs发展的关键基准。

当前挑战

VLRMBench基准带来的挑战包括：1) 所解决的领域问题：VLRMBench旨在解决视觉语言推理任务中LVLMs推理深度不足和缺乏自我纠正机制的问题，通过引入RMs来检测模型响应中的错误，从而提升LVLMs的性能。2) 构建过程中所遇到的挑战：为了构建一个全面且具有挑战性的基准，VLRMBench采用了三种不同类型的VLRMs：过程RMs、结果RMs和批评RMs，并设计了12个任务来评估VLRMs在过程理解、结果判断和批评生成方面的能力。这些任务涵盖了数学推理、幻觉理解和多图像理解等方面，需要模型具有深入的理解和推理能力。

常用场景

经典使用场景

VLRMBench 数据集主要用于评估视觉语言奖励模型（VLRM）的性能。它涵盖了数学推理、幻觉理解和多图像理解三个领域，并设计了12个任务，包括基于步骤的任务、基于结果的任务和基于批评的任务。通过这些任务，VLRMBench 能够全面评估 VLRM 在过程理解、结果判断和批评生成方面的能力。

衍生相关工作

VLRMBench 数据集的提出推动了视觉语言奖励模型研究的发展。基于 VLRMBench 的评估结果，研究人员可以进一步探索 VLRM 的改进方法，例如提高模型对长文本的理解能力、探索不同的反馈模式以及开发专有的 VLRM 等。这些相关工作将有助于推动 VLRM 的进一步发展和应用。

数据集最近研究

相关研究论文

1
VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models上海交通大学 · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现，包括UIEB、U45和LSUI等数据集，用于支持水下图像增强的研究和开发。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

IVLLab/MultiDialog

该数据集包含手动注释的元数据，将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务，包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语，并提供了一个黄金情感对话子集，用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

hugging_face 收录