HERBench
收藏HERBench 数据集概述
数据集基本信息
- 名称: HERBench
- 描述: 一个用于评估视觉语言模型在长视频中多证据整合能力的挑战性基准。
- 主要特点: 强制要求每个问题需要聚合至少 k ≥ 3 个不同的、时间上分离的视觉线索,以防止单帧捷径,测试真正的多证据推理。
- 语言: 英语
- 许可证: CC BY-NC-SA 4.0
- 任务类别: 视觉问答、多项选择
- 标签: 视频理解、多证据推理、长视频、时序推理、空间推理、视频问答
- 规模类别: 10K < n < 100K
数据集版本与规模
HERBench 提供两个版本以适应不同的存储和计算限制。
| 指标 | 完整版本 | 精简版本 |
|---|---|---|
| 总问题数 | 27,936 个五选一多项选择题 | 5,960 个问题 (21.3%) |
| 视频数 | 335 个独立视频 | 68 个独立视频 (20.3%) |
| 平均视频长度 | 424 秒 | 421 秒 |
| 总大小 | ~161 GB | ~35 GB |
核心设计目标
- 强制多证据整合: 每个问题需要 k ≥ 3 个时间上分离的帧。
- 防止单帧捷径: 问题无法从孤立的帧中回答。
- 测试组合推理: 结合时序、空间和因果推理。
- 评估长视频理解: 平均视频长度为 6.6 分钟。
任务类型(12种)
时序推理与时间顺序
- 时序镜头排序: 理解事件顺序、高级场景转换、使用内容线索进行时间顺序重建。
- 多人持续时间推理: 细粒度时间跨度对比、区间统计、比较不同个体的出现时长。
- 动作序列完整性识别: 微观任务排序、动作排序、细粒度活动的时间理解。
指代与跟踪
- 基于外观的行为交互: 社交和关系线索、跨时间的身份维持、交互识别。
- 基于外观的属性识别: 特定时刻的属性提取、目标跟踪、从特定个体读取上下文细节。
- 基于外观的定位轨迹: 全局路径级运动推理、轨迹跟踪、空间出口/入口点识别。
全局一致性与验证
- 错误动作记忆: 动作级缺席检测、全视频范围验证、区分未发生的动作。
- 场景验证排列: 镜头级保真度检查、时间顺序验证、区分真实与虚构的描述。
- 错误物体记忆: 物体级缺席检测、交互验证、识别未交互的物体。
多实体聚合与计数
- 多实体定位与定位: 集合成员验证、身份去重、精确匹配的外观验证。
- 动作计数: 跨分散时刻的事件累积、重复动作计数、时间聚合。
- 区域定位人物计数: 区域条件身份聚合、空间分区、带空间约束的计数。
视频来源
视频来源于多样化的高质量数据集:
- WildTrack: 56 个片段(多摄像头行人跟踪场景)
- HD-EPIC: 176 个视频(第一人称自我中心日常活动)
- PersonPath22: 24 个视频(人物跟踪场景)
- Movie Trailers: 81 个视频(叙事性故事内容)
数据集结构
HERBench/ ├── data/ │ ├── herbench_annotations.json # 完整版:27,936 个问题 │ ├── herbench_annotations_lite.json # 精简版:约 5,600 个问题 │ ├── task_metadata.json # 任务描述(共享) │ ├── video_metadata.json # 视频信息(共享) │ └── README_DATA.md # 数据格式文档 ├── videos/ │ ├── videos.tar.part.00 # 精简版视频从此开始 │ ├── videos.tar.part.01 # | │ ├── videos.tar.part.02 # | 精简版:部分 00-03 (~35GB) │ ├── videos.tar.part.03 # | │ ├── videos.tar.part.04 # | │ ├── ... # | 完整版:所有部分 00-XX (~161GB) │ ├── videos.tar.part.XX # | │ ├── videos.tar.checksums.txt # SHA256 校验和 │ └── videos_lite_info.txt # 存档结构信息
注释格式示例
每个样本包含以下字段: json { "question_id": "HER_001234", "video_id": "cam2_segment_4_180s_240s", "video_path": "videos/WildTrack/cam2_segment_4_180s_240s.mp4", "question": "What is the main activity happening throughout the video?", "choices": ["A. ...", "B. ...", "C. ...", "D. ...", "E. ..."], "answer": "A", "answer_index": 0, "answer_text": "People walking across the scene", "task_type": "activity_recognition", "metadata": { "source_dataset": "WildTrack", "duration": 60.0, "resolution": "1920x1080", "difficulty": "medium" } }
使用方式
通过 Hugging Face Datasets 库加载
python from datasets import load_dataset
加载完整版本
dataset_full = load_dataset("DanBenAmi/HERBench", "full")
加载精简版本
dataset_lite = load_dataset("DanBenAmi/HERBench", "lite")
通过 Hugging Face CLI 下载
bash
下载完整版本
huggingface-cli download DanBenAmi/HERBench --repo-type dataset --local-dir HERBench
下载精简版本(仅视频部分)
huggingface-cli download DanBenAmi/HERBench --include "data/herbench_lite.parquet" --include "data/*metadata.json" --include "videos/videos.tar.part.00" --include "videos/videos.tar.part.01" --include "videos/videos.tar.part.02" --include "videos/videos.tar.part.03" --include "videos/videos_lite_info.txt" --include "videos/videos.tar.checksums.txt" --local-dir HERBench
基准性能(摘要)
- 当前最佳模型: Ovis-2.5-9B (42.1%) 和 InternVL3.5-14B (41.5%)
- 随机基线: 20.0%
- 关键发现:
- 指代与跟踪任务相对容易(平均 66.8%)。
- 多证据整合具有挑战性(总体准确率 38.2%)。
- 性能在不同任务家族间差异显著,全局一致性与验证以及多实体聚合与计数最具挑战性。
相关资源链接
- 论文: https://arxiv.org/abs/2512.14870
- GitHub 仓库: https://github.com/DanBenAmi/HERBench
- 项目主页: https://gabrieleserussi.github.io/HERBench/
- Hugging Face 数据集页: https://huggingface.co/datasets/DanBenAmi/HERBench
引用
bibtex @article{herbench2025, title={HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering}, author={Ben-Ami, Dan and Serussi, Gabriele and Cohen, Kobi and Baskin, Chaim}, journal={arXiv preprint arXiv:2512.14870}, year={2025} }




