ELV-Halluc

github2025-09-02 更新2025-09-04 收录

下载链接：

https://github.com/hlsv02/ELV-Halluc

下载链接

链接失效反馈

官方服务：

资源简介：

ELV-Halluc是一个用于长视频幻觉评估的基准数据集，特别支持对语义聚合幻觉（SAH）的系统性研究。该数据集包含4,800个二元问答对，可分为3,200个对抗性问答对，涵盖视觉细节、物体、动作和陈述性内容四个方面。每个视频构建24个二元问答对，通过组合真实标注问题和幻觉问题形成对抗对，要求模型对真实问题回答是，对幻觉问题回答否才算正确。

ELV-Halluc is a benchmark dataset for long-form video hallucination evaluation, which specifically supports systematic research on Semantic Aggregation Hallucination (SAH). This dataset contains 4,800 binary question-answer pairs, which can be divided into 3,200 adversarial question-answer pairs covering four aspects: visual details, objects, actions, and declarative content. Each video includes 24 binary question-answer pairs, which are constructed into adversarial pairs by combining ground-truth annotated questions and hallucinated questions. A model is considered correct only when it answers "Yes" to the ground-truth questions and "No" to the hallucinated questions.

创建时间：

2025-08-21

原始信息汇总

ELV-Halluc 数据集概述

数据集简介

ELV-Halluc 是专为长视频幻觉评估设计的基准数据集，特别支持对语义聚合幻觉（SAH）的系统性研究。

数据规模

包含 4,800 个二元问答对
可分组为 3,200 个对抗性问答对

数据构建方法

每个选定视频通过添加问题前缀构建 24 个二元问答对，前缀为："Is the following caption totally correct? Reply with ‘Yes’ or ‘No’ only."
问答对涵盖 四个方面：视觉细节、对象、动作和陈述性内容
- 每个方面包含 6 个问题，由同一视频中的 2 个三元组形成
- 每个 三元组 包含三个标题：真实标注、视频内幻觉 和 视频外幻觉

对抗性问答对构建

通过组合一个真实标注问题和一个幻觉问题构建 对抗性问答对，每个三元组产生两对：
- (真实标注, 视频内幻觉)
- (真实标注, 视频外幻觉)
仅当模型对真实标注问题回答 "Yes" 且对幻觉问题回答 "No" 时，该对抗对才被视为正确

数据文件

测试数据：https://github.com/hlsv02/ELV-Halluc/blob/main/data/ELV_Halluc.jsonl
DPO 数据：https://github.com/hlsv02/ELV-Halluc/blob/main/data/dpo_data.jsonl

评估方法

评估脚本：https://github.com/hlsv02/ELV-Halluc/blob/main/eval.py
要求答案文件与数据集保持相同顺序，只需在每个条目中添加额外的键 "model_response" 来记录模型输出

引用信息

bibtex @misc{lu2025elvhallucbenchmarkingsemanticaggregation, title={ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding}, author={Hao Lu and Jiahao Wang and Yaolun Zhang and Ruohui Wang and Xuanyu Zheng and Yepeng Tang and Dahua Lin and Lewei Lu}, year={2025}, eprint={2508.21496}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.21496}, }

搜集汇总

数据集介绍

构建方式

在长视频理解领域，ELV-Halluc数据集的构建采用了系统化的方法，基于精选视频内容生成4800个二元问答对，其中包含3200个对抗性问答对。每个视频通过添加固定问题前缀构建24个问题，覆盖视觉细节、对象、动作和陈述性内容四个维度。每个维度由两个三元组构成，包含真实标注、视频内幻觉和视频外幻觉三种字幕类型，形成严谨的语义聚合幻觉评估框架。

使用方法

研究人员可通过Huggingface平台获取ELV-Halluc数据集，测试集以JSONL格式提供，包含完整的问答对及其标注信息。评估时需将模型输出作为额外键值添加到每个数据条目中，使用提供的评估脚本进行自动化评测。数据集还包含8000条DPO训练数据，可用于模型优化。评测结果通过标准化的正确率计算，要求模型对真实问题回答“是”而对幻觉问题回答“否”，确保评测的一致性和可比性。

背景与挑战

背景概述

随着长视频理解技术的快速发展，模型在语义聚合过程中产生的幻觉现象逐渐成为制约性能提升的关键因素。ELV-Halluc数据集由HLSv研究团队于2025年8月正式发布，作为首个专门针对长视频理解中语义聚合幻觉的系统性评测基准，该数据集通过精心构建的二元问答对，深入探究模型在视觉细节、物体识别、动作分析和陈述性内容四个维度的幻觉生成机制。其创新性的对抗性问答结构为长视频理解领域提供了重要的评估工具，推动了幻觉检测与抑制技术的发展。

当前挑战

长视频语义聚合幻觉检测面临多重挑战：在领域问题层面，模型需准确区分真实语义与幻觉内容，特别是在处理跨片段语义关联时容易产生虚假推理；视频时序信息的长期依赖关系建模存在困难，导致模型对复杂事件的认知出现偏差。数据集构建过程中，需要精确标注4800个二元问答对并生成3200个对抗性样本，确保每个视频片段的真实标注与两种幻觉类型的严格对应；同时保持视频长度、主题和事件数量的多样性，以全面覆盖现实场景中的复杂情况。

常用场景

经典使用场景

在长视频理解领域，ELV-Halluc数据集被广泛用于评估多模态模型的语义聚合幻觉现象。研究者通过其精心构建的4800个二元问答对，系统检验模型对视频内容中视觉细节、物体识别、动作分析和陈述性内容的准确理解能力。该数据集通过对抗性问答设计，有效揭示模型在长时序信息处理中产生的认知偏差。

解决学术问题

该数据集解决了长视频理解中语义聚合幻觉的量化评估难题，为多模态人工智能研究提供了关键基准。通过区分视频内幻觉和视频外幻觉两种类型，它帮助研究者识别模型在时序信息整合中的系统性缺陷，推动了视频内容理解的可信度研究，对提升模型鲁棒性和可解释性具有重要理论价值。

实际应用

在实际应用层面，ELV-Halluc为视频内容审核、智能监控系统和自动驾驶场景分析提供了验证工具。其构建的对抗性测试框架能够有效检测商业视频理解系统在长时序数据处理中的可靠性缺陷，为工业界优化多模态模型提供了重要参考依据，特别是在需要高精度时序推理的应用场景中。

数据集最近研究