five

ELV-Halluc

收藏
arXiv2025-09-03 更新2025-11-25 收录
下载链接:
https://hf-mirror,com/datasets/HLSv/ELV-Halluc
下载链接
链接失效反馈
官方服务:
资源简介:
ELV-Halluc是一个针对长视频幻觉的基准测试数据集,旨在系统地研究语义聚合幻觉(SAH)。数据集由8K对抗性数据对组成,通过半自动化的字幕生成流程和人工验证,确保了数据的质量和准确性。ELV-Halluc通过事件分割的视频和对抗性问题对设计,能够有效地评估模型在长视频场景下的幻觉现象,并为缓解SAH提供了新的思路。

ELV-Halluc is a benchmark dataset for long-form video hallucination, which aims to systematically investigate Semantic Aggregation Hallucination (SAH). The dataset comprises 8K adversarial data pairs, whose quality and accuracy are guaranteed by a semi-automated caption generation pipeline and manual validation. Designed with event-segmented videos and adversarial question pairs, ELV-Halluc can effectively evaluate model hallucination in long-form video scenarios and provide new insights for mitigating SAH.
提供机构:
商汤科技研究院
创建时间:
2025-08-29
搜集汇总
数据集介绍
构建方式
在长视频理解领域,ELV-Halluc数据集通过半自动化流程构建,首先从YouTube手动收集包含多个独立事件的视频,确保事件间语义清晰分离。利用Gemini-2.5 Flash生成初始事件描述,再经人工校验修正时间范围、事实错误并补充缺失事件,最终形成高质量标注。该流程结合对抗性三元组设计,针对视觉细节、动作、对象和陈述内容四个语义层面生成视频内与视频外幻觉问题对,有效支撑语义聚合幻觉的系统性评估。
使用方法
该数据集通过标准化问答对形式进行评估,要求模型对描述事件真实性的问题作出二元判断。评估时需计算模型在视频内幻觉与视频外幻觉问题上的准确率差异,进而推导语义聚合幻觉比率。研究人员可利用该基准分析不同采样帧数、位置编码策略对幻觉的影响,或通过直接偏好优化方法训练模型以抑制错误语义聚合。数据集支持对14种开源模型及2种闭源模型的横向比较,为长视频多模态大语言模型的可靠性优化提供实证基础。
背景与挑战
背景概述
ELV-Halluc数据集由商汤科技研究院于2025年推出,旨在系统评估长视频理解中的语义聚合幻觉现象。该数据集聚焦多模态大语言模型在长视频场景下的可靠性问题,通过构建包含348个多事件长视频的基准,填补了现有研究在长视频语义聚合错误评估领域的空白。其创新性地定义了语义聚合幻觉这一核心概念,推动了视频理解模型在复杂时序语义关联方面的研究进展。
当前挑战
该数据集主要应对长视频语义聚合幻觉的量化挑战,具体包括模型在跨事件语义归因错误、动态语义变化敏感度不足等问题。构建过程中面临多事件视频标注一致性保障、对抗性问答对设计的语义合理性平衡等难点,需通过半自动化标注流程与人工校验相结合的方式确保数据质量。
常用场景
经典使用场景
在长视频理解领域,ELV-Halluc数据集被广泛用于评估多模态大语言模型在语义聚合过程中产生的幻觉现象。该数据集通过构建基于事件的视频片段和对抗性问答对,系统性地量化模型在跨事件语义归因时的错误倾向,为研究长视频中语义复杂性对模型可靠性的影响提供了标准化测试环境。
解决学术问题
该数据集首次系统揭示了语义聚合幻觉这一新型错误模式,解决了长视频理解中因多事件语义交叉导致的错误归因问题。通过定义SAH比率指标,将语义聚合错误从传统幻觉类型中解耦,推动了视频多模态模型可解释性研究的发展,并为改善模型时序语义建模能力提供了理论依据。
实际应用
在视频内容审核、智能监控摘要生成等实际场景中,ELV-Halluc可有效检测模型对跨事件语义的混淆现象。例如在新闻联播解析场景中,该数据集能识别模型将不同新闻条目的视觉元素错误关联的问题,为提升自动驾驶视频分析、医疗影像时序推理等领域的模型可靠性提供了验证工具。
数据集最近研究
最新研究方向
随着视频多模态大语言模型在长视频理解领域的快速发展,语义聚合幻觉问题逐渐成为研究焦点。ELV-Halluc作为首个专注于长视频语义聚合幻觉的基准数据集,揭示了模型在跨事件语义整合中的脆弱性,尤其在语义复杂度较高的场景下,模型易将帧级正确语义错误归因于不同事件。前沿研究通过引入对抗性三元组问题设计,量化了语义聚合幻觉比率,并探索了位置编码优化与直接偏好优化等策略,显著降低了幻觉发生率。这一方向不仅推动了长视频可靠理解的技术进步,也为多模态模型在医疗、安防等高风险领域的应用奠定了安全基础。
相关研究论文
  • 1
    通过商汤科技研究院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作