VCR-Bench

github2025-04-13 更新2025-04-15 收录

下载链接：

https://github.com/zhishuifeiqian/VCR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VCR-Bench是一个新颖的基准测试，旨在全面评估LVLMs的视频链式思考推理能力。它包含859个视频，涵盖各种视频内容和时长，以及1,034个高质量的问题-答案对。每个问题-答案对都手动标注了逐步的链式思考理由，每一步都标记了其与感知或推理能力的关联。此外，还设计了七个不同的任务维度，并提出了基于逐步标记的链式思考理由的CoT评分来评估整个CoT过程。

VCR-Bench is a novel benchmark designed to comprehensively evaluate the video chain-of-thought reasoning capabilities of large vision-language models (LVLMs). It contains 859 videos covering diverse content and durations, along with 1,034 high-quality question-answer pairs. Each question-answer pair is manually annotated with step-by-step chain-of-thought justifications, where each step is labeled with its association with perceptual or reasoning abilities. Furthermore, seven distinct task dimensions are established, and a CoT scoring metric based on the step-by-step labeled justifications is proposed to assess the entire chain-of-thought reasoning process.

创建时间：

2025-04-09

原始信息汇总

VCR-Bench 数据集概述

数据集基本信息

名称: VCR-Bench
任务类型: VideoQA (视频问答)、Multi-Modal (多模态)
发布年份: 2025
相关模型: Gemini、GPT-4o、LLaVA-Video

数据集内容

视频数量: 859个
视频特点: 多样化的视频内容和时长
问答对数量: 1,034个
标注特点: 每个问答对均手动标注了逐步的CoT (Chain-of-Thought) 推理过程，每一步均标记了与感知或推理能力的关联

数据集特点

任务维度: 设计了7个不同的任务维度
评估指标: 提出了CoT分数，基于逐步标记的CoT推理过程评估整个CoT流程

数据获取与使用

数据下载: 可通过HuggingFace获取 VCR-Bench数据集
数据准备: 提供了原始视频数据和平均64帧的数据
自定义帧数: 可通过脚本生成其他帧数的数据

评估流程

推理: 依赖GPT4o的API调用
评估脚本:
- 使用eval.py获取评估结果
- 使用cau_total.py计算CoT分数
- 使用cau_acc.py计算准确率

引用

bibtex @article{qi2025vcr, title={VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning}, author={Qi, Yukun and Zhao, Yiming and Zeng, Yu and Bao, Xikun and Huang, Wenxuan and Chen, Lin and Chen, Zehui and Zhao, Jie and Qi, Zhongang and Zhao, Feng}, journal={arXiv preprint arXiv:2504.07956}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频理解与多模态推理领域，VCR-Bench通过精心设计的框架构建了高质量评估基准。研究团队采集了859段涵盖多样主题与时长的视频素材，并人工标注了1,034组包含逐步思维链（CoT）的问答对。每个回答均被分解为感知与推理环节，并通过七维度任务体系进行结构化标注，最终形成具有层次化特征的评估体系。视频数据经过帧率标准化处理，提供原始版本及64帧均值采样版本以满足不同研究需求。

特点

该数据集的核心价值体现在其细粒度的认知过程解构能力。不同于传统视频问答数据集，VCR-Bench首创性地将思维链标注与多模态评估相结合，每个推理步骤均标注了对应的认知能力类型。数据集包含七类差异化任务维度，并创新性地提出基于标注步骤的CoT评分机制，支持对模型推理过程的全方位量化分析。视频素材覆盖日常生活、教育场景等多元内容，平均时长分布均衡，确保了评估结果的泛化性。

使用方法

研究者可通过HuggingFace平台获取标准化数据集，支持原始视频或预处理帧序列两种格式。评估流程采用模块化设计，需配置GPT-4o等大模型的API接口进行自动化评测。核心脚本提供多线程并发处理功能，支持自定义帧采样策略。通过三步式评估体系实现：首先运行推理脚本生成模型响应，继而调用评分模块计算CoT分步指标，最后通过专用算法聚合准确率与思维链完整性分数。所有评估结果均以结构化JSON格式输出，便于后续分析。

背景与挑战

背景概述

VCR-Bench数据集由Yukun Qi等研究人员于2025年提出，旨在全面评估大型视觉语言模型（LVLMs）在视频链式思维推理（Video Chain-of-Thought Reasoning）方面的能力。该数据集包含859个涵盖多种视频内容和时长的视频片段，以及1,034个高质量的问题-答案对，每个问题-答案对均附有手动标注的逐步推理过程（CoT rationale），并标注了每个步骤与感知或推理能力的关联。VCR-Bench的推出填补了多模态视频推理评估领域的空白，为视频问答（VideoQA）和多模态推理任务提供了标准化评测框架。

当前挑战

VCR-Bench面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，视频链式思维推理需要模型同时具备时序感知、多模态融合和逻辑推理能力，这对现有模型的跨模态理解和长序列建模提出了更高要求。在构建过程中，数据集的标注工作面临视频内容多样性、问题复杂性以及标注一致性的挑战，尤其是手动标注逐步推理过程需要平衡标注的精细度和可扩展性。此外，评测框架的设计需确保对模型推理能力的评估既全面又具有区分度。

常用场景

经典使用场景

在视频理解与推理领域，VCR-Bench数据集通过其精心设计的视频链式思维推理任务，为研究者提供了一个标准化的评估平台。该数据集包含859个多样化视频和1,034个高质量问答对，每个问答对均附带手动标注的逐步推理依据，特别适用于测试多模态大模型在视频内容理解、逻辑推理及跨模态对齐等方面的能力。经典使用场景包括视频问答（VideoQA）系统的性能评测，以及模型在复杂场景下进行逐步推理的鲁棒性验证。

实际应用

在实际应用层面，该数据集支撑的评估体系已广泛应用于智能视频分析系统的开发。教育领域利用其构建互动式教学问答系统，通过对教学视频的深度推理实现个性化辅导；安防场景则借助其多模态理解能力，提升监控视频中异常事件的分析效率。医疗影像分析也通过迁移其推理框架，实现了手术视频中关键步骤的自动化解读。

衍生相关工作

基于VCR-Bench的评估范式，学术界已衍生出多项创新研究。Gemini和GPT-4o等主流模型相继在其基础上开发了视频推理增强模块，LLaVA-Video则通过引入思维链蒸馏技术显著提升了推理效率。后续工作如Video-MME进一步扩展了多模态评估维度，而CausalVideo框架则专注于数据集中因果推理能力的专项优化，形成了一系列具有影响力的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集