HERBench

github2025-12-18 更新2025-12-19 收录

下载链接：

https://github.com/DanBenAmi/HERBench

下载链接

链接失效反馈

官方服务：

资源简介：

HERBench是一个基准数据集，旨在评估视觉语言模型如何整合和推理视频中的多个证据。与现有基准不同，HERBench强制要求高证据要求（ER）：每个问题需要聚合至少k≥3个不同的、时间上分离的视觉线索。关键特性包括：27,936个五选一选择题，涵盖12个组合任务；335个来自不同来源的独特视频；平均视频长度：395秒（6.6分钟）；平均最小所需帧集（MRFS）约为5.5，显著高于现有基准；严格的质量控制以消除语言先验和单帧捷径；提供完整版（约161 GB）和精简版（约35 GB）两种版本。

HERBench is a benchmark dataset designed to evaluate how vision-language models integrate and reason over multiple pieces of evidence within videos. Unlike existing benchmarks, HERBench enforces a High Evidence Requirement (ER): each question requires aggregating at least k≥3 distinct, temporally separated visual cues. Its key features include: 27,936 five-option multiple-choice questions covering 12 combinatorial tasks; 335 unique videos sourced from diverse origins; average video length of 395 seconds (6.6 minutes); the Mean Minimum Required Frame Set (MRFS) averages approximately 5.5, which is significantly higher than that of existing benchmarks; strict quality control measures are implemented to eliminate language priors and single-frame shortcuts; two versions are provided, namely the full version (approximately 161 GB) and the lightweight version (approximately 35 GB).

创建时间：

2025-12-12

原始信息汇总

HERBench 数据集概述

数据集简介

HERBench 是一个用于评估视觉语言模型在视频中整合和推理多证据能力的基准测试。其核心设计理念是强制执行高证据要求：每个问题都需要聚合至少 k ≥ 3 个不同的、时间上分离的视觉线索。

核心特征

高证据要求：每个问题需整合至少3个时间上分离的证据帧。
防止单帧捷径：问题无法通过孤立帧回答。
组合推理测试：结合时间、空间和因果推理。
长视频理解评估：平均视频长度为6.6分钟。

数据集统计

指标	完整版本	精简版本
总问题数	27,936 个五选一选择题	5,960 个问题 (21.3%)
视频数	335 个独特视频	68 个独特视频 (20.3%)
平均视频长度	424 秒	421 秒
总大小	~161 GB	~35 GB

任务构成

数据集包含 12 种组合任务类型，分为四大类：

1. 时序推理与时间线

TSO 时序镜头排序：理解事件顺序、高级场景转换。
MPDR 多人时长推理：细粒度时间跨度对比、间隔统计。
ASII 动作序列完整性识别：微观任务排序、细粒度活动的时间理解。

2. 指代与跟踪

AGBI 基于外观的行为交互：社交和关系线索、跨时间身份维持。
AGAR 基于外观的属性识别：特定时刻属性提取、目标跟踪。
AGLT 基于外观的定位轨迹：全局路径级运动推理、轨迹跟踪。

3. 全局一致性与验证

FAM 错误动作记忆：动作级缺席检测、全视频范围验证。
SVA 场景验证排列：镜头级保真度检查、时间线验证。
FOM 错误物体记忆：物体级缺席检测、交互验证。

4. 多实体聚合与计数

MEGL 多实体定位：集合成员验证、身份去重、精确匹配外观验证。
AC 动作计数：跨分散时刻的事件累积、重复动作计数。
RLPC 区域定位人数统计：区域条件身份聚合、空间分区、空间约束计数。

视频来源

视频来源于多样化的高质量数据集：

WildTrack：56个片段，多摄像头行人跟踪场景。
HD-EPIC：176个视频，第一人称自我中心日常活动。
PersonPath22：24个视频，人物跟踪场景。
电影预告片：81个视频，叙事性故事内容。

获取与使用

发布平台：数据集通过 Hugging Face 独家分发。
访问地址：https://huggingface.co/datasets/DanBenAmi/HERBench
加载方式：可使用 datasets 库直接加载完整版或精简版。
本地下载：支持通过 Hugging Face CLI 下载视频文件。

评估结果

最先进的模型准确率仅为 31-42%（随机基线：20%）。
帧选择是主要瓶颈，自适应选择器优于均匀采样，但仍落后于关键帧。
多证据推理是瓶颈，即使使用关键帧，模型在整合互补信息方面仍存在困难。

许可信息

许可证：知识共享署名-非商业性使用-相同方式共享 4.0 国际许可证 (CC BY-NC-SA 4.0)。
使用条款：仅限非商业性研究和教育用途。数据集不主张对任何底层视频内容的所有权。

引用

如需在研究中引用 HERBench，请使用提供的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在视频问答领域，现有基准常因允许模型依赖单一显著线索作答而难以评估多证据整合能力。HERBench的构建严格遵循高证据需求原则，每个问题均需聚合至少三个在时间上分离的视觉线索。该数据集从WildTrack、HD-EPIC、PersonPath22及电影预告片等多样化高质量来源中精选了335段视频，并基于12种组合任务类型手工设计了27,936道五选一选择题。通过严谨的质量控制流程，有效消除了语言先验与单帧捷径，确保了问题解答必须依赖跨时间段的证据集成。

特点

HERBench的核心特征在于其强制性的多证据整合要求与丰富的组合推理任务。数据集平均视频长度约为395秒，显著长于现有基准，且平均最小所需帧集约为5.5，远高于同类数据集。它涵盖12种精心设计的任务类型，包括时序推理、指代跟踪、全局一致性验证及多实体聚合等，全面检验模型在时空、因果等多维度的组合推理能力。数据集提供完整版与精简版两种规格，在保持任务分布与难度一致性的同时，适应不同的存储与计算约束。

使用方法

研究者可通过Hugging Face平台便捷地获取HERBench数据集。推荐使用Datasets库直接加载，完整版与精简版可分别通过指定配置参数轻松调用。数据集已集成至官方评估代码中，支持对Qwen2.5-VL-7B-Instruct、InternVL3.5-8B等视觉语言模型进行统一或基于BLIP的帧选择评估。若需本地处理，亦可使用CLI工具下载视频文件并解压。评估完成后，利用配套脚本可计算准确率与最小所需帧集等关键指标，以系统衡量模型的多证据整合性能。

背景与挑战

背景概述

视频问答领域长期面临模型依赖单一视觉线索进行推理的局限，现有基准往往未能强制要求模型整合多段时序证据。为应对这一挑战，由Dan Ben-Ami、Gabriele Serussi、Kobi Cohen和Chaim Baskin等研究人员于2025年共同构建了HERBench基准数据集。该数据集旨在评估视觉语言模型在视频中整合与推理多证据的能力，其核心研究问题聚焦于模型对高证据要求的满足程度，即每个问题必须聚合至少三个在时间上分离的视觉线索。通过包含27,936个五选一选择题、覆盖12种组合任务，并采用平均时长约395秒的335个独特视频，HERBench显著推动了视频理解领域向更深层次时序与组合推理的发展。

当前挑战

HERBench所针对的视频问答领域挑战在于，现有模型常通过单帧或有限上下文回答问题，缺乏对多证据整合与长时序推理能力的有效评估。具体而言，该数据集构建了高证据要求，强制模型必须整合至少三个时间分离的视觉线索，这直接挑战了模型在长视频中捕捉、关联与合成分散信息的能力。在构建过程中，研究团队面临确保问题无法通过语言先验或单帧捷径解答的挑战，需精心设计12种组合任务以涵盖时空、因果及聚合推理，并通过严格的质量控制消除偏差，同时处理来自多样视频源的数据整合与大规模标注的复杂性。

常用场景

经典使用场景

在视频理解与多模态人工智能领域，HERBench数据集被广泛用于评估视觉语言模型在长视频中整合多证据的推理能力。其经典使用场景集中于对模型进行严格的基准测试，研究人员通过该数据集提供的近2.8万个五选一多选题，系统性地检验模型能否从平均时长约6.6分钟的视频中，有效聚合至少三个在时间上分离的视觉线索，以完成涵盖时序排序、人物追踪、场景验证等12类复合任务。

实际应用

在实际应用层面，HERBench所针对的多证据推理能力是构建高级视频分析系统的关键。例如，在智能监控中，系统需整合人物在不同时间点的行动轨迹以判断其意图；在教育视频分析中，需理解连续的操作步骤以评估学习过程；在内容审核与叙事理解中，则需关联分散的事件线索以把握整体脉络。该数据集为开发此类需要长程、复合推理的实际应用提供了宝贵的评估工具与改进方向。

衍生相关工作

围绕HERBench数据集，已衍生出一系列关注视频问答中证据整合瓶颈的研究工作。这些工作主要集中于开发更高效的帧选择策略以替代均匀采样，例如基于BLIP等模型的自适应关键帧提取方法，旨在逼近数据集标注的“预言家关键帧”性能上限。同时，该基准也激励了针对长视频多模态模型架构的改进，探索如何设计更好的机制以融合时序上分散的视觉信息，并推动了对模型组合推理能力的更细粒度评估框架的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集