HAVEN

github2025-03-20 更新2025-03-21 收录

下载链接：

https://github.com/Hongcheng-Gao/HAVEN

下载链接

链接失效反馈

官方服务：

资源简介：

HAVEN是一个用于评估大型多模态模型在视频理解中的幻觉现象的基准数据集。该数据集基于三个维度构建：幻觉的原因（与先验知识冲突、上下文冲突、模型能力不足）、幻觉的方面（对象、场景、事件）以及问题的格式（二选一、多选、简答）。数据集包含来自公开视频数据集（如COIN、ActivityNet和Sports1M）以及从互联网手动收集的视频片段。

HAVEN is a benchmark dataset designed to evaluate the illusion phenomenon in video understanding for large-scale multimodal models. The dataset is constructed based on three dimensions: the cause of illusion (conflict with prior knowledge, context conflict, insufficient model capability), the aspect of illusion (object, scene, event), and the format of the question (choose one, multiple choice, short answer). The dataset includes video clips from public video datasets (such as COIN, ActivityNet, and Sports1M) as well as manually collected videos from the internet.

创建时间：

2025-03-09

原始信息汇总

HAVEN 数据集概述

📌 数据集简介

名称：HAVEN (HAllucination in Video UndErstaNding)
目的：定量评估大型多模态模型(LMMs)在视频理解中的幻觉现象
特点：专注于视频理解中的幻觉问题，区别于传统的图像理解基准

📊 数据构成

视频来源：
- 公开数据集：COIN、ActivityNet、Sports1M
- 手动收集：来自互联网的视频片段
样本量：包含1,200个问题

🔍 数据维度

幻觉原因：
- 与先验知识冲突
- 上下文冲突
- 模型固有能力缺陷
幻觉方面：
- 对象
- 场景
- 事件
问题格式：
- 二元选择
- 多项选择
- 简答

📂 数据结构

json { "Index": 1, "Question": "Are the individuals in the video sewing garments with thread?", "Answer": "No", "Causes": "Conflict with prior", "Aspects": "Event", "Form": "Binary-choice", "Source Link": "https://www.youtube.com/embed/xZecGPPhbHE", "Begin": "0:29", "End": "0:40", "Video Path": "Coin0001", "Group_id": "Coin_group0001" }

📝 字段说明

Index：全局问题索引
Causes：幻觉原因分类
Aspects：视频内容中的幻觉类别
Form：问题格式
Source Link：原始视频来源
Begin/End：相关视频片段时间戳
Video Path：视频唯一标识符
Group_id：相关问题组标识

🛠 使用工具

Infer.py：在数据集上运行模型
Judge.py：使用GPT-4o-mini评估模型预测

📄 相关文献

论文标题：Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation
arXiv链接：https://arxiv.org/abs/2503.19622

搜集汇总

数据集介绍

构建方式

HAVEN数据集的构建基于对大型多模态模型（LMMs）在视频理解中的幻觉现象进行定量评估的需求。数据集从三个维度精心设计：幻觉的成因（与先验知识冲突、上下文冲突、模型能力不足）、幻觉的方面（对象、场景、事件）以及问题的形式（二选一、多选、简答）。视频数据来源于公开数据集（如COIN、ActivityNet、Sports1M）以及手动收集的互联网视频片段，确保了数据的多样性和广泛性。

特点

HAVEN数据集的特点在于其专注于视频理解中的幻觉问题，涵盖了多种幻觉成因和类型。数据集包含1200个问题，每个问题都详细标注了幻觉的成因、方面和形式。通过提供视频的起始和结束时间戳，用户可以精确地定位相关视频片段。此外，数据集还引入了`group_id`字段，用于分析模型在相同内容上的表现一致性，进一步增强了数据集的实用性和研究价值。

使用方法

使用HAVEN数据集时，用户可以通过提供的`Source Link`直接下载视频文件，并根据`Begin`和`End`字段定位相关视频片段。数据集中的每个问题都附有详细的元数据，包括幻觉的成因、方面和形式，用户可以根据这些信息进行模型评估和分析。通过`group_id`字段，用户可以进一步研究模型在相同内容上的表现一致性，从而深入理解模型在视频理解中的幻觉现象。

背景与挑战

背景概述

HAVEN数据集由2025年3月发布，旨在探索大型多模态模型（LMMs）在视频理解中的幻觉问题。该数据集由多个研究机构联合开发，主要研究人员包括来自计算机视觉和自然语言处理领域的专家。HAVEN的创建背景源于多模态技术的快速发展，尤其是LMMs在视频处理中的应用。与图像理解不同，视频理解涉及时间动态的连续分析，包括人类动作、物体运动和场景转换的序列变化。HAVEN通过定量评估LMMs在视频理解中的幻觉现象，填补了该领域的研究空白，推动了多模态模型在复杂视频内容理解中的应用。

当前挑战

HAVEN数据集面临的主要挑战包括两个方面。首先，视频理解本身具有复杂性，涉及时间序列的动态分析，这要求模型能够捕捉到连续帧之间的细微变化，而不仅仅是单帧的静态信息。其次，构建HAVEN数据集时，研究人员需要从多个公开视频数据集中提取视频片段，并手动收集互联网上的视频，确保数据的多样性和代表性。此外，数据标注过程中，如何准确识别和分类幻觉现象（如对象、场景和事件的错误理解）也是一个技术难点。这些挑战不仅影响了数据集的构建效率，也对模型的评估提出了更高的要求。

常用场景

经典使用场景

HAVEN数据集主要用于评估大型多模态模型（LMMs）在视频理解中的幻觉现象。通过提供包含对象、场景和事件三个维度的视频数据，HAVEN能够系统地分析模型在处理视频内容时产生的幻觉类型及其原因。数据集中的问题格式包括二元选择、多项选择和简答题，覆盖了多种评估场景，帮助研究者全面了解模型在视频理解中的表现。

衍生相关工作

HAVEN数据集的发布催生了一系列相关研究，特别是在多模态模型的幻觉检测和缓解策略方面。许多研究基于HAVEN的评估框架，提出了新的模型架构和训练方法，以减少模型在视频理解中的幻觉现象。此外，HAVEN还为跨模态学习、时间序列分析等领域的研究提供了重要的数据支持，推动了多模态模型在复杂任务中的应用。

数据集最近研究