HERBench

Hugging Face2025-12-18 更新2025-12-19 收录

下载链接：

https://huggingface.co/datasets/DanBenAmi/HERBench

下载链接

链接失效反馈

官方服务：

资源简介：

HERBench是一个专为评估视频问答中多证据整合能力而设计的挑战性基准。与现有基准不同，HERBench强制要求每个问题至少需要整合k≥3个不同的、时间上分离的视觉线索。数据集包含12种组合任务类型，测试时间、空间和因果推理能力。提供完整版（27,936个问题，335个视频）和精简版（5,960个问题，68个视频）两个版本，以适应不同的存储和计算需求。

HERBench is a challenging benchmark specifically designed to evaluate multi-evidence integration capabilities in video question answering (VideoQA). Unlike existing benchmarks, HERBench mandates that each question integrate at least k≥3 distinct, temporally separated visual cues. The dataset includes 12 combined task types that evaluate temporal, spatial, and causal reasoning abilities. Two versions are available: the full version (27,936 questions, 335 videos) and the lightweight version (5,960 questions, 68 videos) to accommodate varying storage and computational demands.

创建时间：

2025-12-11

原始信息汇总

HERBench 数据集概述

数据集基本信息

名称: HERBench
描述: 一个用于评估视觉语言模型在长视频中多证据整合能力的挑战性基准。
主要特点: 强制要求每个问题需要聚合至少 k ≥ 3 个不同的、时间上分离的视觉线索，以防止单帧捷径，测试真正的多证据推理。
语言: 英语
许可证: CC BY-NC-SA 4.0
任务类别: 视觉问答、多项选择
标签: 视频理解、多证据推理、长视频、时序推理、空间推理、视频问答
规模类别: 10K < n < 100K

数据集版本与规模

HERBench 提供两个版本以适应不同的存储和计算限制。

指标	完整版本	精简版本
总问题数	27,936 个五选一多项选择题	5,960 个问题 (21.3%)
视频数	335 个独立视频	68 个独立视频 (20.3%)
平均视频长度	424 秒	421 秒
总大小	~161 GB	~35 GB

核心设计目标

强制多证据整合: 每个问题需要 k ≥ 3 个时间上分离的帧。
防止单帧捷径: 问题无法从孤立的帧中回答。
测试组合推理: 结合时序、空间和因果推理。
评估长视频理解: 平均视频长度为 6.6 分钟。

任务类型（12种）

时序推理与时间顺序

时序镜头排序: 理解事件顺序、高级场景转换、使用内容线索进行时间顺序重建。
多人持续时间推理: 细粒度时间跨度对比、区间统计、比较不同个体的出现时长。
动作序列完整性识别: 微观任务排序、动作排序、细粒度活动的时间理解。

指代与跟踪

基于外观的行为交互: 社交和关系线索、跨时间的身份维持、交互识别。
基于外观的属性识别: 特定时刻的属性提取、目标跟踪、从特定个体读取上下文细节。
基于外观的定位轨迹: 全局路径级运动推理、轨迹跟踪、空间出口/入口点识别。

全局一致性与验证

错误动作记忆: 动作级缺席检测、全视频范围验证、区分未发生的动作。
场景验证排列: 镜头级保真度检查、时间顺序验证、区分真实与虚构的描述。
错误物体记忆: 物体级缺席检测、交互验证、识别未交互的物体。

多实体聚合与计数

多实体定位与定位: 集合成员验证、身份去重、精确匹配的外观验证。
动作计数: 跨分散时刻的事件累积、重复动作计数、时间聚合。
区域定位人物计数: 区域条件身份聚合、空间分区、带空间约束的计数。

视频来源

视频来源于多样化的高质量数据集：

WildTrack: 56 个片段（多摄像头行人跟踪场景）
HD-EPIC: 176 个视频（第一人称自我中心日常活动）
PersonPath22: 24 个视频（人物跟踪场景）
Movie Trailers: 81 个视频（叙事性故事内容）

数据集结构

HERBench/ ├── data/ │ ├── herbench_annotations.json # 完整版：27,936 个问题 │ ├── herbench_annotations_lite.json # 精简版：约 5,600 个问题 │ ├── task_metadata.json # 任务描述（共享） │ ├── video_metadata.json # 视频信息（共享） │ └── README_DATA.md # 数据格式文档 ├── videos/ │ ├── videos.tar.part.00 # 精简版视频从此开始 │ ├── videos.tar.part.01 # | │ ├── videos.tar.part.02 # | 精简版：部分 00-03 (~35GB) │ ├── videos.tar.part.03 # | │ ├── videos.tar.part.04 # | │ ├── ... # | 完整版：所有部分 00-XX (~161GB) │ ├── videos.tar.part.XX # | │ ├── videos.tar.checksums.txt # SHA256 校验和 │ └── videos_lite_info.txt # 存档结构信息

注释格式示例

每个样本包含以下字段： json { "question_id": "HER_001234", "video_id": "cam2_segment_4_180s_240s", "video_path": "videos/WildTrack/cam2_segment_4_180s_240s.mp4", "question": "What is the main activity happening throughout the video?", "choices": ["A. ...", "B. ...", "C. ...", "D. ...", "E. ..."], "answer": "A", "answer_index": 0, "answer_text": "People walking across the scene", "task_type": "activity_recognition", "metadata": { "source_dataset": "WildTrack", "duration": 60.0, "resolution": "1920x1080", "difficulty": "medium" } }

使用方式

通过 Hugging Face Datasets 库加载

python from datasets import load_dataset

加载完整版本

dataset_full = load_dataset("DanBenAmi/HERBench", "full")

加载精简版本

dataset_lite = load_dataset("DanBenAmi/HERBench", "lite")

通过 Hugging Face CLI 下载

bash

下载完整版本

huggingface-cli download DanBenAmi/HERBench --repo-type dataset --local-dir HERBench

下载精简版本（仅视频部分）

huggingface-cli download DanBenAmi/HERBench --include "data/herbench_lite.parquet" --include "data/*metadata.json" --include "videos/videos.tar.part.00" --include "videos/videos.tar.part.01" --include "videos/videos.tar.part.02" --include "videos/videos.tar.part.03" --include "videos/videos_lite_info.txt" --include "videos/videos.tar.checksums.txt" --local-dir HERBench

基准性能（摘要）

当前最佳模型: Ovis-2.5-9B (42.1%) 和 InternVL3.5-14B (41.5%)
随机基线: 20.0%
关键发现:
- 指代与跟踪任务相对容易（平均 66.8%）。
- 多证据整合具有挑战性（总体准确率 38.2%）。
- 性能在不同任务家族间差异显著，全局一致性与验证以及多实体聚合与计数最具挑战性。

引用

bibtex @article{herbench2025, title={HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering}, author={Ben-Ami, Dan and Serussi, Gabriele and Cohen, Kobi and Baskin, Chaim}, journal={arXiv preprint arXiv:2512.14870}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频问答领域，现有基准常因依赖单帧信息而难以评估模型的多证据整合能力。HERBench通过精心设计的标注流程构建而成，其核心在于强制执行高证据需求：每个问题均需整合至少三个时间上分离的视觉线索。研究团队从WildTrack、HD-EPIC等多样化高质量视频源中选取素材，并依据十二种组合任务类型手工构建问题，确保答案无法从孤立帧中推断，从而迫使模型进行跨时间的证据聚合与组合推理。

使用方法

研究者可通过Hugging Face数据集库直接加载HERBench，其以Parquet格式提供，确保了与标准数据处理流程的兼容性。使用时可选择完整版或精简版，通过指定配置名称加载相应的测试分割。数据集中每个样本包含问题、五个选项、正确答案及丰富的元数据，如任务类型和视频来源。评估时，模型需处理长视频并基于多帧证据生成答案，研究者可利用官方提供的评估代码计算模型在四大任务类别上的准确率，以全面衡量其多证据整合能力。

背景与挑战

背景概述

视频问答领域长期面临模型依赖单帧信息或有限上下文进行推理的局限，难以评估其真正的多证据整合能力。为应对这一挑战，研究人员Dan Ben-Ami、Gabriele Serussi等人于2025年提出了HERBench基准数据集。该数据集旨在系统评估视觉语言模型在长视频中整合多证据的能力，其核心研究问题聚焦于强制模型聚合至少三个时间上分离的视觉线索以回答问题。通过引入高证据要求，HERBench推动了视频理解从浅层识别向深层组合推理的范式转变，对计算机视觉与自然语言处理的交叉领域产生了显著影响。

当前挑战

HERBench致力于解决视频问答中多证据整合这一核心领域挑战，其问题设计强制要求模型跨越时间与空间整合分散的视觉信息，从而克服现有基准中普遍存在的单帧捷径问题。在构建过程中，数据集面临多重挑战：首先，需从WildTrack、HD-EPIC等异构视频源中筛选出适合长时序推理的片段，并确保其内容多样性；其次，人工标注需精心设计超过两万七千个问题，每个问题必须满足至少三个独立证据的高标准，且涵盖时序推理、指代跟踪等十二种组合任务类型，这对标注的一致性与复杂性提出了极高要求。

常用场景

经典使用场景

在视频理解研究领域，HERBench数据集被广泛用于评估视觉语言模型在长视频多证据整合方面的核心能力。该数据集通过设计高证据要求，强制模型必须整合至少三个时间上分离的视觉线索才能回答问题，从而成为测试模型时空推理、组合性理解及长程依赖建模能力的黄金标准。研究者在模型开发与比较阶段，常利用其包含的12种组合任务类型，系统性地衡量模型在时序推理、指代跟踪、全局一致性及多实体聚合等维度的表现，为模型能力的精细化诊断提供了结构化框架。

解决学术问题

HERBench主要解决了视频问答研究中长期存在的单帧捷径问题，即模型仅依赖单一或少量帧的局部信息即可回答问题，未能真正测试对跨时间证据的整合与推理能力。该数据集通过强制性的多证据整合要求，推动了研究社区关注模型对长视频中分散、时序分离信息的组合性理解。其意义在于确立了多证据推理作为视频理解核心挑战的学术共识，并为开发具备真正时序与因果推理能力的下一代视觉语言模型提供了精确的评估基准，显著提升了该研究领域的严谨性与深度。

实际应用

在实际应用层面，HERBench所针对的多证据视频理解能力是诸多现实系统的技术基石。例如，在智能监控系统中，系统需要整合人员在不同时间点的行为、轨迹及交互，以判断异常事件或进行行为分析。在自动驾驶领域，车辆需理解交通参与者随时间演变的意图与状态，做出安全决策。此外，在视频内容分析与检索、沉浸式交互叙事理解以及具身智能体的环境感知与任务规划中，对长视频中多源、异步信息的稳健整合均是实现高级认知功能的关键。HERBench为这些应用背后的核心模型提供了可靠的性能标尺。

数据集最近研究