Video-Holmes

Hugging Face2025-05-24 更新2025-05-25 收录

下载链接：

https://huggingface.co/datasets/TencentARC/Video-Holmes

下载链接

链接失效反馈

官方服务：

资源简介：

Video-Holmes是一个评估大型语言模型在复杂视频推理方面的能力的基准数据集。它包含了270个手动注释的悬疑短片，每个短片大约1到5分钟长，共1837个问题，分为七个精心设计的任务。这些问题设计要求模型能够积极定位并连接视频不同片段中的多个相关视觉线索。Video-Holmes提供了方便的一键评估方式，并能够展示模型的推理过程，帮助分析正确与错误回答背后的原因。

Video-Holmes is a benchmark dataset for evaluating the complex video reasoning capabilities of large language models (LLMs). It contains 270 manually annotated suspense short films, each approximately 1 to 5 minutes in length, along with 1837 questions categorized into seven meticulously designed tasks. These questions are designed to require models to actively locate and connect multiple relevant visual cues across different segments of the video. Video-Holmes provides a convenient one-click evaluation method, and supports the display of model reasoning processes, helping to analyze the underlying reasons for both correct and incorrect responses.

创建时间：

2025-05-24

原始信息汇总

Video-Holmes 数据集概述

基本信息

许可证: Apache-2.0
语言: 英语 (en)
数据规模: 1K < n < 10K

数据集简介

Video-Holmes 是一个用于评估多模态大语言模型 (MLLMs) 复杂视频推理能力的基准测试。该数据集包含以下关键内容：

问题数量: 1,837 个
视频来源: 270 个手动标注的悬疑短片 (时长 1-5 分钟)
任务设计: 7 个精心设计的任务

核心特点

一键评估: 视频、问题和评估代码已打包在 GitHub 和 Huggingface 上
高推理需求: 推理模型与非推理模型之间存在显著性能差距
推理过程分析: 可清晰可视化模型回答正确和错误的原因

快速开始

下载数据集

shell git clone https://github.com/TencentARC/Video-Holmes.git cd Video-Holmes pip install huggingface_hub python download.py --hf_token YOUR HUGGINGFACE ACCESS TOKEN unzip Benchmark/videos.zip -d Benchmark/

评估基线模型

shell python evaluate.py --model_name YOUR MODEL NAME --model_path YOUR MODEL PATH (optional)

支持的模型列表

QwenVL	QwenVL-RL	InternVL	Gemini
Qwen2.5-VL-7B	VideoChat-R1	InternVL2.5-8B	gemini-2.0-flash
Qwen2.5-VL-32B	Video-R1	InternVL3-8B	gemini-2.0-pro-exp

引用

如需引用本工作，请考虑给予星标和引用： BibTeXw Todo

搜集汇总

数据集介绍

构建方式

Video-Holmes数据集的构建基于270部人工标注的悬疑短片，这些短片时长介于1至5分钟之间。研究团队通过识别影片中的关键事件和因果关系，精心设计了1,837个问题，涵盖七项不同任务。每个问题都要求模型能够主动定位并关联散布在视频不同片段中的多个视觉线索，从而实现对复杂视频推理能力的全面评估。这种构建方式确保了数据集在评估多模态大语言模型时的科学性和严谨性。

特点

该数据集最显著的特点在于其高度复杂的推理需求，在推理模型与非推理模型之间展现出显著的性能差异。数据集包含七个精心设计的任务类型，每个任务都模拟了人类在观看悬疑影片时的推理过程。特别值得一提的是，数据集不仅提供了标准化的评估指标，还能够可视化模型正确与错误回答背后的推理过程，为研究者提供了深入分析模型行为的工具。

使用方法

使用Video-Holmes数据集时，用户可通过GitHub或Huggingface平台一键获取完整的评估套件，包括视频、问题集和评估代码。数据集支持多种主流多模态模型的直接评估，如QwenVL、InternVL和Gemini系列模型。对于自定义模型的评估，用户只需实现prepare_your_model和generate_your_model两个核心函数即可接入评估框架。这种设计极大简化了研究者的评估流程，使注意力能够集中在模型性能分析上。

背景与挑战

背景概述

Video-Holmes是由腾讯ARC实验室与香港城市大学联合研发的复杂视频推理评估基准，旨在测试多模态大语言模型（MLLMs）在悬疑短片中的深层推理能力。该数据集构建于2024年，包含270部人工标注的悬疑短片及衍生的1,837个问题，覆盖七类需要跨片段线索关联的高阶推理任务。其创新性在于通过模拟侦探式思维过程，首次系统性地量化了模型在时序视觉线索整合、因果推理等方面的表现，为多模态认知智能的发展提供了重要评估工具。核心研究团队包括程俊豪、葛玉莹等学者，相关成果已推动视频理解领域从感知向认知层面的范式转变。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，悬疑视频推理要求模型突破传统视觉问答的局限，解决长时序依赖下的多线索协同定位难题，现有模型在因果链重建和反事实推理上的准确率不足40%；在构建过程中，研究团队需精确标注影片中隐含的时空因果关系，并通过对抗性设计确保问题必须依赖跨片段线索解答，其标注一致性验证耗时达到普通视频数据集的5倍。此外，评估框架需兼容不同架构的MLLMs，这对标准化接口设计和公平性度量提出了苛刻要求。

常用场景

经典使用场景

在多媒体智能推理领域，Video-Holmes数据集通过精心设计的悬念短片和复杂问题，为多模态大语言模型（MLLMs）的推理能力评估提供了标准测试平台。该数据集包含1,837个问题，覆盖七种任务类型，要求模型能够主动定位并关联分散在不同视频片段中的视觉线索，模拟人类福尔摩斯式的复杂推理过程。这种设计使得Video-Holmes成为评估模型在时序推理、因果分析和多线索整合等方面能力的经典工具。

衍生相关工作

围绕Video-Holmes数据集，研究者已开展多项经典工作。腾讯ARC实验室基于该数据集开发了QwenVL和InternVL等基线模型，并开源了全流程评估代码。后续研究进一步探索了多模态提示优化、时序注意力机制增强等技术，这些工作显著提升了模型在复杂视频推理任务中的表现，推动了多模态推理领域的算法创新。

数据集最近研究