ELV-Halluc
收藏arXiv2025-08-29 更新2025-11-25 收录
下载链接:
https://hf-mirror.com/datasets/HLSv/ELV-Halluc
下载链接
链接失效反馈官方服务:
资源简介:
ELV-Halluc数据集是商汤科技研究院首次推出的针对长视频幻觉的长视频数据集,旨在系统性地研究语义聚合幻觉(SAH)。数据集包含8K对抗性数据对,支持对视频多模态大型语言模型(Video-MLLMs)进行评估,以减少SAH比率并提高模型性能。该数据集通过半自动化流程收集并生成高质量的长视频及其字幕,并通过GPT-4o引入幻觉元素,用于评估模型对语义错位的敏感性和SAH比率。数据集可用于提高视频多模态模型的可靠性和准确性。
ELV-Halluc dataset is the first long-video dataset targeting long-video hallucinations, launched by SenseTime Research, which aims to systematically investigate Semantic Aggregation Hallucination (SAH). The dataset includes 8K adversarial data pairs and supports the evaluation of Video-MLLMs to reduce the SAH rate and enhance model performance. It collects and generates high-quality long videos and their corresponding subtitles through a semi-automated workflow, and introduces hallucinatory elements via GPT-4o to assess the model's sensitivity to semantic misalignment and the SAH rate. This dataset can be utilized to improve the reliability and accuracy of video multimodal models.
提供机构:
商汤科技研究院
创建时间:
2025-08-29
搜集汇总
数据集介绍

构建方式
在长视频理解领域,针对语义聚合幻觉这一关键挑战,ELV-Halluc数据集采用事件导向的构建范式。通过从YouTube平台筛选348个包含2至10个清晰分隔事件的视频,构建了以新闻播报、体育赛事等场景为主的多事件语料库。采用半自动化标注流程,先利用Gemini-2.5 Flash生成初始描述,再经过人工校验修正时间范围与事实细节,最终形成高质量的事件级标注。特别设计了对抗性三元组问题对,通过GPT-4o在视觉细节、动作、对象和陈述内容四个维度注入视频内与视频外幻觉,构建了包含8630对幻觉标注的基准数据集。
特点
该数据集的核心特征体现在其专为长视频语义聚合幻觉设计的评估体系。通过事件数量量化语义复杂度,建立了多事件视频与语义混淆风险的关联模型。独创的对抗性问题对架构,能有效区分传统幻觉与跨事件语义错配。覆盖视觉细节到陈述内容的四层语义粒度,揭示了模型在快速变化语义上的脆弱性。数据集包含200个长视频与4800个二值问题对,平均视频长度达672秒,其事件数量与视频时长的解耦设计,为分离语义复杂度与时间维度的影响提供了理想实验环境。
使用方法
该数据集通过标准化评估协议支撑长视频多模态模型的可靠性研究。采用二值问答形式,要求模型对标注描述的正确性进行判断。通过视频内准确率与视频外准确率的差值计算SAH比率,量化语义聚合幻觉的严重程度。研究者可基于348个训练视频进行DPO优化,利用8630对标注数据调整模型对跨事件语义的感知偏好。评估时固定采样64帧的策略确保了结果可比性,而四类语义粒度的细分则为定位模型缺陷提供了多维诊断视角。
背景与挑战
背景概述
ELV-Halluc数据集由商汤科技研究院团队于2025年推出,聚焦长视频多模态大语言模型中的语义聚合幻觉现象。该数据集针对视频理解领域中长期存在的幻觉问题,首次系统性地定义了语义聚合幻觉这一核心研究议题,即在帧级语义正确感知的前提下,模型在跨事件语义聚合过程中产生错误输出的现象。通过构建包含348个多事件长视频的基准数据集,ELV-Halluc填补了现有视频幻觉评测体系在长视频场景下的空白,为提升视频理解模型的可靠性提供了关键评估工具。
当前挑战
该数据集主要应对长视频语义聚合幻觉的量化评估挑战,具体包括模型在跨事件语义关联时产生的时空错位问题。构建过程中面临多重技术难点:需设计对抗性三元组问题对以区分视频内与视频外幻觉,通过半自动化标注流程确保事件分割与语义标注的精确性,同时需维持生成幻觉内容的合理性与评测有效性。此外,长视频中事件数量的动态变化与语义复杂度的量化表征也构成了数据构建的核心难点。
常用场景
实际应用
在实际应用层面,ELV-Halluc为提升视频多模态模型的工业可靠性提供了重要支撑。在视频内容审核、智能监控分析、长视频摘要生成等实际场景中,语义聚合幻觉可能导致严重的内容误判。该数据集通过系统评估模型在视觉细节、动作、物体和陈述性内容四个维度的表现,为优化模型在新闻播报、体育赛事分析、教育视频理解等具体应用中的准确性提供了改进方向,显著增强了多模态模型在复杂长视频处理任务中的实用价值。
衍生相关工作
基于ELV-Halluc数据集的研究催生了多个重要的衍生工作方向。在模型优化方面,研究者开发了基于直接偏好优化的训练策略,实现了27.7%的语义聚合幻觉降低。在位置编码改进领域,VideoRoPE等新型位置编码方法被证明能有效缓解跨事件语义混淆。该数据集还推动了长视频理解基准的完善,为后续的Video-MME等综合评估基准提供了重要的幻觉检测模块,促进了视频多模态模型可靠性研究的系统化发展。
以上内容由遇见数据集搜集并总结生成



