ELV-Halluc

Name: ELV-Halluc
Creator: 商汤科技研究院
Published: 2025-09-03 01:14:38
License: 暂无描述

arXiv2025-09-03 更新2025-11-25 收录

下载链接：

https://hf-mirror,com/datasets/HLSv/ELV-Halluc

下载链接

链接失效反馈

官方服务：

资源简介：

ELV-Halluc是一个针对长视频幻觉的基准测试数据集，旨在系统地研究语义聚合幻觉（SAH）。数据集由8K对抗性数据对组成，通过半自动化的字幕生成流程和人工验证，确保了数据的质量和准确性。ELV-Halluc通过事件分割的视频和对抗性问题对设计，能够有效地评估模型在长视频场景下的幻觉现象，并为缓解SAH提供了新的思路。

ELV-Halluc is a benchmark dataset for long-form video hallucination, which aims to systematically investigate Semantic Aggregation Hallucination (SAH). The dataset comprises 8K adversarial data pairs, whose quality and accuracy are guaranteed by a semi-automated caption generation pipeline and manual validation. Designed with event-segmented videos and adversarial question pairs, ELV-Halluc can effectively evaluate model hallucination in long-form video scenarios and provide new insights for mitigating SAH.

提供机构：

商汤科技研究院

创建时间：

2025-08-29

搜集汇总

数据集介绍

构建方式

在长视频理解领域，ELV-Halluc数据集通过半自动化流程构建，首先从YouTube手动收集包含多个独立事件的视频，确保事件间语义清晰分离。利用Gemini-2.5 Flash生成初始事件描述，再经人工校验修正时间范围、事实错误并补充缺失事件，最终形成高质量标注。该流程结合对抗性三元组设计，针对视觉细节、动作、对象和陈述内容四个语义层面生成视频内与视频外幻觉问题对，有效支撑语义聚合幻觉的系统性评估。

使用方法

该数据集通过标准化问答对形式进行评估，要求模型对描述事件真实性的问题作出二元判断。评估时需计算模型在视频内幻觉与视频外幻觉问题上的准确率差异，进而推导语义聚合幻觉比率。研究人员可利用该基准分析不同采样帧数、位置编码策略对幻觉的影响，或通过直接偏好优化方法训练模型以抑制错误语义聚合。数据集支持对14种开源模型及2种闭源模型的横向比较，为长视频多模态大语言模型的可靠性优化提供实证基础。

背景与挑战

背景概述

ELV-Halluc数据集由商汤科技研究院于2025年推出，旨在系统评估长视频理解中的语义聚合幻觉现象。该数据集聚焦多模态大语言模型在长视频场景下的可靠性问题，通过构建包含348个多事件长视频的基准，填补了现有研究在长视频语义聚合错误评估领域的空白。其创新性地定义了语义聚合幻觉这一核心概念，推动了视频理解模型在复杂时序语义关联方面的研究进展。

当前挑战

该数据集主要应对长视频语义聚合幻觉的量化挑战，具体包括模型在跨事件语义归因错误、动态语义变化敏感度不足等问题。构建过程中面临多事件视频标注一致性保障、对抗性问答对设计的语义合理性平衡等难点，需通过半自动化标注流程与人工校验相结合的方式确保数据质量。

常用场景

经典使用场景

在长视频理解领域，ELV-Halluc数据集被广泛用于评估多模态大语言模型在语义聚合过程中产生的幻觉现象。该数据集通过构建基于事件的视频片段和对抗性问答对，系统性地量化模型在跨事件语义归因时的错误倾向，为研究长视频中语义复杂性对模型可靠性的影响提供了标准化测试环境。

解决学术问题

该数据集首次系统揭示了语义聚合幻觉这一新型错误模式，解决了长视频理解中因多事件语义交叉导致的错误归因问题。通过定义SAH比率指标，将语义聚合错误从传统幻觉类型中解耦，推动了视频多模态模型可解释性研究的发展，并为改善模型时序语义建模能力提供了理论依据。

实际应用

在视频内容审核、智能监控摘要生成等实际场景中，ELV-Halluc可有效检测模型对跨事件语义的混淆现象。例如在新闻联播解析场景中，该数据集能识别模型将不同新闻条目的视觉元素错误关联的问题，为提升自动驾驶视频分析、医疗影像时序推理等领域的模型可靠性提供了验证工具。

数据集最近研究