HAVEN

Name: HAVEN
Creator: 中国科学院大学
Published: 2025-03-25 21:12:17
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/Hongcheng-Gao/HAVEN

下载链接

链接失效反馈

官方服务：

资源简介：

HAVEN数据集是由中国科学院大学等机构创建的，用于评估大型多模态模型在视频理解任务中产生虚构信息的问题。该数据集基于三个维度构建，包括虚构信息产生的原因、虚构信息的方面和问题格式，共包含6497个问题。数据来源于公共视频数据集和手动收集的YouTube视频。该数据集旨在解决视频理解中的虚构信息问题，为大型多模态模型的评估提供了基准。

The HAVEN dataset was developed by institutions including the University of Chinese Academy of Sciences to evaluate hallucination issues of large multimodal models in video understanding tasks. Constructed based on three dimensions, namely the causes of hallucinatory information generation, the aspects of hallucinatory information, and question formats, the dataset contains a total of 6497 questions. Its data is sourced from public video datasets and manually collected YouTube videos. This dataset aims to address the hallucination problem in video understanding and provides a benchmark for the evaluation of large multimodal models.

提供机构：

中国科学院大学

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

HAVEN数据集构建基于三个关键维度：幻觉成因（先验知识冲突、上下文冲突及模型能力缺陷）、幻觉方面（对象、场景与事件）以及问题形式（二元选择、多项选择与简答）。通过整合来自公开视频数据集及手动收集的YouTube片段，构建了包含6,497个问题的基准测试集。数据后处理阶段采用系统化问题转换协议，以消除模型回答中的潜在位置偏差。

特点

HAVEN数据集以其多维度的评估框架脱颖而出，全面覆盖视频理解中可能出现的幻觉现象。其独特之处在于细粒度的问题分类体系，能够精准量化不同因素（如视频时长、帧采样数、问题复杂度）对模型幻觉的影响。数据集通过严格的统计分布控制，确保了评估结果的代表性与可靠性，为研究界提供了首个专注于视频模态幻觉的系统性基准。

使用方法

该数据集支持端到端的视频语言模型评估流程，用户可通过标准化接口输入模型预测结果。评估阶段采用GPT-4o-mini作为裁判模型，通过对比人工标注答案与模型输出来计算准确率指标。针对含推理链的模型响应，设计了两阶段评估策略：先提取精简答案再进行比对。数据集配套提供一致性评估模块，通过偏差分数量化模型在不同问题变体中的响应稳定性。

背景与挑战

背景概述

HAVEN（HAllucination in Video UndErstaNding）数据集由中国科学院大学、新加坡国立大学等机构的研究团队于2025年提出，旨在系统评估多模态大模型（LMMs）在视频理解任务中的幻觉现象。该数据集基于视频模态的动态特性，从幻觉成因（先验冲突、上下文冲突、能力缺陷）、幻觉维度（物体、场景、事件）和问题形式（二元选择、多项选择、简答）三个维度构建，包含6,497个标注问题。作为首个专注于视频模态幻觉的基准，HAVEN填补了传统图像-文本多模态研究的空白，为提升LMMs在自动驾驶、医疗等高可靠性场景的应用提供了关键评估工具。

当前挑战

HAVEN针对视频理解中特有的动态时序分析挑战，需解决三大核心问题：1）模型对长视频关键帧的时序关联建模能力不足，导致动作序列误判（如将‘放下电话’误识别为‘接听电话’）；2）跨模态对齐偏差引发的语义冲突（如视频中‘黑色汽车’被描述为‘蓝色’）；3）复杂场景下的量化能力缺陷（如人群计数误差）。数据构建过程中，研究团队需克服视频帧采样策略优化、时序标注一致性校验，以及对抗性问题的设计平衡（如‘视频中是否存在不存在物体’的陷阱问题）等工程挑战。

常用场景

经典使用场景

在视频理解领域，HAVEN数据集为评估大型多模态模型（LMMs）的幻觉现象提供了标准化测试环境。其通过构建涵盖6,497个问题的多维基准（包括幻觉诱因、视频要素和问题形式），系统量化了模型在动态视频内容中生成错误响应的倾向。典型应用场景包括对比不同规模LMMs在时序推理任务中的稳定性，例如分析模型对视频中物体属性、场景关系和事件序列的误判频率，为优化模型架构提供数据支撑。

衍生相关工作

该数据集催生了多项里程碑式研究：VideoHallucer通过引入跨模态对齐损失扩展了HAVEN的评估维度；RLHF-V采用其细粒度偏好数据开发了视频推理DPO算法；Qwen-VL团队受启发构建了动态分辨率视频处理框架。这些衍生工作共同推动了《MMHal-Bench 2025》行业白皮书的制定，确立了视频幻觉评估的国际化标准。

数据集最近研究