HAVEN

Hugging Face2025-05-16 更新2025-05-17 收录

下载链接：

https://huggingface.co/datasets/Joshua999/HAVEN

下载链接

链接失效反馈

官方服务：

资源简介：

HAVEN是一个评估大型语言模型在视频理解中的错误生成（hallucination）的基准数据集。它基于三个维度设计：错误生成的三个原因（与先验知识冲突、上下文冲突、模型能力不足）、视频中的三个错误生成方面（对象、场景、事件）和三种问题格式（二选一、多选、简答）。数据集包含来自三个公开数据集（COIN、ActivityNet、Sports1M）和互联网上的视频片段。

创建时间：

2025-05-14

搜集汇总

数据集介绍

构建方式

在视频理解领域，HAVEN数据集的构建采用了多源融合策略，整合了COIN、ActivityNet和Sports1M三个公开视频数据集，并辅以人工采集的互联网视频片段。通过精心设计的标注框架，该数据集从三个维度构建评估体系：基于先验知识冲突、上下文冲突和模型能力缺陷的幻觉成因；涵盖对象、场景和事件的幻觉类型；以及二元选择、多项选择和简答三种问题形式。每个视频片段均标注了起止时间戳，并建立了问题组标识以支持模型一致性分析。

特点

该数据集最显著的特点在于其多维度的幻觉评估体系，能够系统性地揭示大语言模型在视频理解中的认知偏差。通过将幻觉现象细化为九种交叉类别，数据集提供了精细化的诊断能力。数据样本包含丰富的元信息，包括问题索引、答案标注、幻觉成因分类和视频来源标识，支持多角度的量化分析。特别设计的群组标识机制使得研究者能够追踪模型在同一视频内容下不同问题中的表现一致性，为深入理解模型行为提供了独特视角。

使用方法

研究者可通过提供的源链接获取原始视频数据，结合数据集中的时间戳信息提取相关视频片段。评估时需按照问题格式设计相应的回答解析策略，对于选择题需统计准确率，简答题则需采用文本相似度度量。利用群组标识可进行模型一致性分析，比较同一视频背景下不同问题的回答逻辑连贯性。建议按照幻觉成因、类型和问题形式三个维度分别进行性能评估，从而全面揭示模型在视频理解中的 hallucination 模式。

背景与挑战

背景概述

随着多模态技术的快速发展，大型多模态模型（LMMs）的视频理解能力日益增强，但模型在处理视频内容时产生的幻觉问题逐渐凸显。HAVEN基准数据集由研究团队于2025年创建，旨在系统评估LMMs在视频理解中的幻觉现象。该数据集整合了COIN、ActivityNet和Sports1M等公开视频资源，并辅以人工采集的网络视频片段，通过多维度框架分析幻觉成因、类型与问题形式，为视频模态的可靠性研究提供了重要基础。

当前挑战

HAVEN致力于解决视频理解中幻觉评估的核心难题，包括模型对时序动态的误判、先验知识冲突以及上下文一致性缺失等问题。在构建过程中，团队面临视频数据版权限制、多源片段时序对齐、以及人工标注一致性的挑战，需通过精细的片段截取和跨数据集协调来保证评估的严谨性与可复现性。

常用场景

经典使用场景

在视频理解领域，HAVEN数据集被广泛用于评估多模态大模型在时序动态分析中的幻觉现象。该数据集通过整合来自COIN、ActivityNet和Sports1M等公开视频资源，构建了涵盖对象、场景和事件三个维度的幻觉检测框架。研究者通常利用其二元选择、多项选择及简答三种问题形式，系统性地检验模型对连续帧间语义一致性的保持能力，尤其关注先验知识冲突、上下文矛盾与内在能力缺陷三大诱因。

解决学术问题

HAVEN有效解决了视频多模态理解中幻觉行为的量化评估难题。传统研究集中于静态图像的幻觉分析，而该数据集通过时序维度的事件追踪与场景转换建模，揭示了动态语境下模型产生矛盾认知的内在机制。其三级分类体系为辨析对象误判、场景误读与事件逻辑断裂提供了标准范式，推动了跨模态推理可信度研究的范式转型，对构建稳健视频分析系统具有奠基意义。

衍生相关工作

基于HAVEN的评估框架，衍生出多模态对齐正则化、时序注意力机制优化等系列创新方法。例如Video-ChatGPT通过引入该数据集的幻觉标注改进了长视频对话系统；MVBench借鉴其多维度分类体系构建了视频推理基准测试链。这些工作进一步拓展至医疗影像时序分析与教育视频智能辅导等领域，形成了跨模态可信计算的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集