HV-MMBench

Name: HV-MMBench
Creator: 华中科技大学，浙江大学，腾讯优图实验室，华南农业大学
Published: 2025-07-07 19:52:24
License: 暂无描述

arXiv2025-07-07 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/ccaiyuxuan/HVMMBench

下载链接

链接失效反馈

官方服务：

资源简介：

HV-MMBench是一个为人类中心视频理解量身定做的的大规模基准数据集，它涵盖了感知和认知领域中的15个多样化的任务，支持四种问答范式（MC, FIB, TF, OEQ），并跨越超过50个真实世界的场景，能够在多个粒度上进行时空推理。数据集由1,200个视频组成，视频时长从10秒到30分钟不等，确保了从短期互动到长期事件的多样性。该数据集的构建过程包括视频收集和预处理、自动问答标注和人工质量审查三个主要步骤。通过这个数据集，可以系统地评估模型在人类中心视频理解方面的能力，并揭示现有开源MLLMs的局限性，从而推动未来MLLMs的发展。

HV-MMBench is a large-scale benchmark dataset tailored for human-centric video understanding. It covers 15 diverse tasks in the domains of perception and cognition, supports four question-answering paradigms (MC, FIB, TF, OEQ), spans over 50 real-world scenarios, and enables spatial-temporal reasoning at multiple granularities. The dataset consists of 1,200 videos with durations ranging from 10 seconds to 30 minutes, ensuring diversity spanning from short-term interactions to long-term events. Its construction includes three main stages: video collection and preprocessing, automatic question-answering annotation, and manual quality review. This dataset can systematically evaluate models' capabilities in human-centric video understanding, reveal the limitations of existing open-source MLLMs, and thus promote the development of future MLLMs.

提供机构：

华中科技大学，浙江大学，腾讯优图实验室，华南农业大学

创建时间：

2025-07-07

搜集汇总

数据集介绍

构建方式

HV-MMBench数据集的构建过程分为三个主要步骤：视频收集与预处理、自动化问答标注以及人工质量审查。视频数据来源于公开数据集如UltraVideo和OpenHumanVid，覆盖了日常活动、专业场景、社交互动等七个核心领域，并进一步细分为50种具体场景。通过严格的筛选标准，最终选取了1160段时长从10秒到30分钟不等的视频。在标注环节，采用先进的MLLMs（如Qwen2.5-VL-72B）生成视频描述和任务属性标签，再基于结构化模板自动生成多样化的问答对，涵盖选择题、填空题、判断题和开放式问题四种形式。最后通过自动化过滤和双盲专家评审确保标注质量。

特点

HV-MMBench的核心特点体现在多维度的评估体系设计上。该数据集覆盖15项认知任务，从基础属性识别（如年龄估计、动作识别）到高阶推理（如社交关系预测、因果分析），形成递进式能力评估框架。其创新性在于融合了四种问答范式（MC/FIB/TF/OEQ），结合精确率、F1值和基于LLM的语义一致性评分等复合指标，突破了传统评测对单一选择题形式的依赖。时空覆盖上，数据集包含50个细分场景和10秒至30分钟的视频跨度，能系统性检验模型对短时行为与长程上下文的理解能力。这种多粒度、多模态的设计使其成为首个全面评估人类中心视频理解的基准测试。

使用方法

使用HV-MMBench时需根据任务类型采用差异化评估策略。对于选择题（MC）和判断题（TF），直接要求模型输出选项字母或布尔值，以准确率（Acc）作为主要指标。填空题（FIB）采用Top-1评估策略，通过精确率（Precision@1）、召回率（Recall@1）和F1值（F1@1）衡量模型生成答案与候选集的匹配度。开放式因果推理（OEQ）则引入三阶段混合评估：基于模糊词匹配的事件重叠度（ScoreF）、最长公共子序列的结构一致性（ScoreO）以及LLM评分的语义连贯性（ScoreG），最终加权得到综合得分。评估时需注意不同范式对模型能力的揭示差异，封闭式问题侧重模式识别，而生成式任务更能暴露真实推理缺陷。

背景与挑战

背景概述

HV-MMBench是由华中科技大学和腾讯优图实验室等机构于2025年联合推出的多模态大语言模型评估基准，专注于以人为中心的视频理解任务。该数据集旨在解决现有基准在评估维度单一、问答范式受限及时空覆盖不足等方面的缺陷，涵盖了从基础属性感知到高级认知推理的15项任务，支持多种问答形式和多粒度时空推理。其创新性体现在：首次系统整合了人类行为感知与认知推理的评估维度，采用混合自动标注与专家审核的构建流程，并覆盖50余种真实场景的1160条视频，时长跨越10秒至30分钟。作为当前最全面的人类行为视频理解评估体系，HV-MMBench为揭示MLLMs在细粒度感知和生成式推理方面的瓶颈提供了重要实验平台。

当前挑战

HV-MMBench揭示了多模态大语言模型在人类行为理解中的核心挑战：在封闭式任务（如选择题）中表现优异的模型，其生成式推理能力存在显著缺陷，如填空任务的平均F1@1得分不足15%，开放式因果推理的复合评分最高仅0.59。数据集构建过程面临三大技术难点：1) 跨模态对齐难题，需协调视频语义与语言推理的细粒度映射；2) 动态时序建模挑战，长时视频（30分钟）的行为因果链标注需平衡时序连贯性与标注效率；3) 评估维度冲突，开放式生成任务的语义一致性评估依赖LLM裁判，可能引入评估偏差。这些挑战暴露出当前模型依赖表层模式匹配而非深度推理的本质缺陷。

常用场景

经典使用场景

HV-MMBench作为一个专注于人类中心视频理解的多模态大语言模型（MLLMs）评估基准，其经典使用场景主要集中在模型能力的全面评估上。该数据集通过涵盖15种不同的任务，从基础属性感知（如年龄估计、情绪识别）到高级认知推理（如社交关系预测、意图预测），为研究者提供了一个系统评估MLLMs在人类中心视频理解中表现的综合平台。其多样化的问答形式（多选题、填空题、判断题和开放式问题）进一步增强了评估的全面性和准确性。

衍生相关工作

HV-MMBench的推出催生了一系列相关研究工作，特别是在视频理解和多模态推理领域。基于该数据集，研究者开发了更先进的视频MLLMs架构，如改进时序建模能力的Video-LLaVA和增强开放域问答性能的VideoChat。同时，该基准也启发了新的评估方法，特别是在开放式生成任务的量化评估方面。这些衍生工作不仅扩展了HV-MMBench的应用范围，也为后续人类中心视频理解研究提供了新的技术路线和理论框架。

数据集最近研究