Video-Holmes

github2025-05-26 更新2025-05-27 收录

下载链接：

https://github.com/TencentARC/Video-Holmes

下载链接

链接失效反馈

官方服务：

资源简介：

Video-Holmes是一个基准数据集，旨在评估MLLMs的复杂视频推理能力。它包含来自270个手动注释的悬疑短片（时长1至5分钟）的1,837个问题，涵盖了七个精心设计的任务。每个任务通过识别电影中的关键事件和因果关系，并设计需要模型主动定位和连接散布在不同视频片段中的多个相关视觉线索的问题来构建。

Video-Holmes is a benchmark dataset intended to evaluate the complex video reasoning capabilities of multimodal large language models (MLLMs). It contains 1,837 questions sourced from 270 manually annotated suspense short films with durations ranging from 1 to 5 minutes, covering seven meticulously designed tasks. Each task is constructed by identifying key events and causal relationships within the films, and formulating questions that require the model to actively locate and connect multiple relevant visual clues scattered across different video segments.

创建时间：

2025-05-23

原始信息汇总

Video-Holmes 数据集概述

数据集简介

Video-Holmes 是一个用于评估多模态大语言模型（MLLMs）复杂视频推理能力的基准测试。该数据集包含来自270部手动标注的悬疑短片（时长1至5分钟）的1,837个问题，涵盖七个精心设计的任务。

关键特点

一键评估：视频、问题和评估代码已打包在GitHub和Huggingface上。
高推理需求：推理模型与非推理模型之间存在显著性能差距。
推理过程分析：清晰可视化模型回答正确和错误的原因。

数据集构成

视频来源：270部高质量悬疑短片
问题数量：1,837个
任务类型：7种

快速开始

下载数据集： shell git clone https://github.com/TencentARC/Video-Holmes.git cd Video-Holmes pip install huggingface_hub python download.py --hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN unzip Benchmark/videos.zip -d Benchmark/ unzip Benchmark/annotations.zip -d Benchmark/
评估基准模型： shell python evaluate.py --model_name YOUR_MODEL_NAME --model_path YOUR_MODEL_PATH

支持模型

QwenVL	QwenVL-RL	InternVL	Gemini
Qwen2.5-VL-7B	VideoChat-R1	InternVL2.5-8B	gemini-2.0-flash
Qwen2.5-VL-32B	Video-R1	InternVL3-8B	gemini-2.0-pro-exp

许可证

Video-Holmes 采用 Apache-2.0 许可证，仅限学术用途。
所有视频均来自互联网，版权归原作者所有。

引用

如需引用本工作，请参考提供的BibTeX条目（待发布）。

搜集汇总

数据集介绍

构建方式

在多媒体推理领域，Video-Holmes数据集的构建体现了严谨的科学方法论。研究团队精选了270部高质量悬疑短片作为基础素材，通过人工标注提取关键事件与因果关系。基于这些标注数据，采用深度学习方法设计了七类具有挑战性的推理任务，最终生成1,837个需要跨片段关联视觉线索的复杂问题。整个构建过程融合了人工标注的精确性与大语言模型的生成能力，确保了数据集的科学性与多样性。

特点

该数据集最显著的特征在于其开创性的主动寻求范式设计。与传统的线索给定式问题不同，Video-Holmes要求模型必须自主定位并关联散布在不同视频片段中的多个视觉线索。这种设计模拟了人类侦探式的推理过程，包含线索定位、时序推理、因果推断等七个维度的复杂任务。数据集特别强调推理过程的可解释性，通过可视化技术清晰展现模型正确与错误响应的内在原因。

使用方法

研究人员可通过GitHub或Huggingface平台便捷获取数据集完整资源包。数据集提供一站式评估代码，支持主流视觉语言模型的性能测试。用户可通过指定模型名称或路径快速进行基准测试，也可自定义模型实现进行扩展研究。对于推理过程分析，数据集整合了深度分析工具，允许研究者深入探究模型的决策机制。此外，数据集还提供了问题生成工具链，支持用户基于自有视频素材构建定制化测试集。

背景与挑战

背景概述

Video-Holmes是由腾讯ARC实验室与香港城市大学联合研发的复杂视频推理评估基准数据集，旨在评估多模态大语言模型（MLLMs）在复杂视频推理任务中的表现。该数据集创建于2025年，核心研究团队包括Junhao Cheng、Yuying Ge等学者。数据集包含270部悬疑短片衍生的1,837个问题，涵盖七类精心设计的推理任务，要求模型主动定位并关联散布在不同视频片段中的多重视觉线索。作为首个采用主动线索搜寻范式（active seeking paradigm）的视频推理基准，Video-Holmes通过构建事件因果链与关键情节标注，推动了多模态推理向人类逻辑思维模式的靠拢，为影视内容理解、智能问答等领域提供了新的评估维度。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，现有视频问答基准多依赖显式提供的线索（clue-given questions），而Video-Holmes要求模型具备跨片段线索主动发现与因果推理能力，这对模型的时空建模与逻辑演绎提出了更高要求；在构建过程中，需解决悬疑短片关键事件标注的主观性难题，通过人工标注与DeepSeek协同的混合标注方案确保问题质量，同时应对视频片段多模态特征抽取与长程依赖建模的技术瓶颈。此外，版权合规性问题也促使团队建立了严格的侵权内容响应机制。

常用场景

经典使用场景

在多媒体推理领域，Video-Holmes数据集为评估多模态大语言模型（MLLMs）在复杂视频推理任务中的表现提供了标准化测试平台。该数据集通过精心设计的七类任务，要求模型从悬疑短片中主动定位并关联散布在不同视频片段中的视觉线索，模拟人类侦探式的推理过程。这种设计使得Video-Holmes成为检验模型时空推理、因果推断和跨模态理解能力的理想工具，尤其适用于需要高层次认知能力的视频分析场景。

实际应用

该数据集在智能视频分析领域展现出广泛的应用潜力。在安防监控场景中，可训练系统主动识别异常行为链；在教育领域，能辅助构建具备深层内容理解能力的教学助手；在影视工业中，可为自动剧情分析提供技术支持。其推理过程可视化功能特别适用于需要可解释性的医疗诊断辅助系统，帮助医生追溯AI的决策依据。

衍生相关工作

Video-Holmes的发布催生了多个创新研究方向。基于其构建的'Holmes-test'评估框架，研究者开发了改进的时空注意力机制和跨模态对齐方法。QwenVL和InternVL等模型团队将其作为核心测试集，推动了模型在长视频理解方面的进步。该数据集还启发了如'动态线索图谱构建'等新型推理范式的研究，相关成果发表在CVPR和ACL等顶级会议上。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集