five

bigai-nlco/VideoHallucer

收藏
Hugging Face2025-04-01 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/bigai-nlco/VideoHallucer
下载链接
链接失效反馈
官方服务:
资源简介:
VideoHallucer是第一个用于大型视频-语言模型(LVLMs)幻觉检测的综合基准。该数据集将幻觉分为内在和外在两类,并进一步细分为对象关系、时间、语义细节、外在事实和外在非事实幻觉。数据集采用了对抗性二元视频问答方法进行评估,其中包含基本问题和幻觉问题的配对。数据统计显示,每种类型的幻觉问题有400个,对应的视频数量分别为183、165、400、200和200个。

VideoHallucer is the first comprehensive benchmark for hallucination detection in large video-language models (LVLMs). The dataset categorizes hallucinations into two main types: intrinsic and extrinsic, offering further subcategories for detailed analysis, including object-relation, temporal, semantic detail, extrinsic factual, and extrinsic non-factual hallucinations. The dataset adopts an adversarial binary VideoQA method for comprehensive evaluation, where pairs of basic and hallucinated questions are crafted strategically. Data statistics show that there are 400 questions for each type of hallucination, with corresponding video counts of 183, 165, 400, 200, and 200 respectively.
提供机构:
bigai-nlco
原始信息汇总

VideoHallucer 数据集概述

数据集描述

  • 任务类别: 问答 (question-answering)
  • 语言: 英语 (en)
  • 数据规模: 1K<n<10K
  • 许可证: MIT

数据统计

幻觉类型 对象关系幻觉 时间幻觉 语义细节幻觉 外部事实幻觉 外部非事实幻觉
问题数量 400 400 400 400 400
视频数量 183 165 400 200 200
搜集汇总
数据集介绍
main_image_url
构建方式
在视频语言模型研究领域,VideoHallucer数据集通过对抗性二元视频问答方法构建,旨在系统评估模型幻觉现象。研究者精心设计基础问题与幻觉问题对,覆盖了内在与外在两大幻觉类型,并进一步细分为对象关系、时序、语义细节、外在事实性与非事实性五个子类别。数据采集基于多样化的视频素材,针对每个子类别均生成了等量的测试问题,确保了评估的全面性与平衡性。
使用方法
该数据集主要用于评估视频语言模型的幻觉生成倾向。使用者可通过官方提供的VideoHallucerKit工具包,加载不同配置的数据文件进行标准化测试。评估过程涉及模型对成对基础问题与幻觉问题的回答比对,从而量化其在不同幻觉类别上的表现。研究结果可提交至项目官方排行榜,以促进学术交流与模型性能的横向比较。
背景与挑战
背景概述
随着大视频语言模型在视频理解与生成任务中的广泛应用,模型输出中的幻觉问题日益凸显,成为制约其可靠性与实用性的关键瓶颈。为系统评估并缓解此问题,北京通用人工智能研究院的研究团队于2024年创建了VideoHallucer数据集。该数据集作为首个针对大视频语言模型幻觉检测的综合性基准,核心研究在于对幻觉现象进行精细分类与量化评估,旨在推动视频-语言多模态领域向更高精度与可信度发展,对模型安全部署及后续研究具有重要指导意义。
当前挑战
VideoHallucer数据集致力于解决大视频语言模型在视频问答任务中产生的各类幻觉检测挑战,具体涵盖对象关系、时序逻辑、语义细节、外部事实与非事实性等多种幻觉子类型的识别与区分。在构建过程中,挑战主要源于如何通过对抗性二元问题对策略,在有限视频样本上人工构建高质量、多样化的幻觉问题对,并确保其与真实问题的语义对立性与评估有效性,这对数据标注的严谨性与逻辑一致性提出了极高要求。
常用场景
经典使用场景
在视频语言模型评估领域,VideoHallucer数据集为研究者提供了一个系统性的基准测试平台。该数据集通过构建对抗性二元视频问答任务,专门用于检测大型视频语言模型在生成内容时产生的幻觉现象。其核心应用场景在于对模型输出的真实性进行量化评估,涵盖对象关系、时间顺序、语义细节等多维度幻觉类型,为模型性能的横向比较与纵向优化奠定了数据基础。
解决学术问题
VideoHallucer数据集有效解决了视频语言模型研究中幻觉检测标准缺失的学术难题。通过将幻觉细分为内在与外在两大类别,并进一步解构为五个具体子类,该数据集为学术界提供了首个系统化的评估框架。这不仅使得模型幻觉的定量分析成为可能,更推动了视频理解领域向可信赖人工智能方向的发展,为构建可靠的多模态系统提供了关键的理论支撑与实证依据。
实际应用
在实际应用层面,VideoHallucer数据集为开发高质量的视频内容分析与生成工具提供了至关重要的验证标准。基于该数据集的评估结果,能够指导视频摘要系统、智能视频编辑软件以及交互式视频助手的研发,确保其输出信息的准确性与一致性。这对于新闻媒体、教育科技、安防监控等依赖视频信息真实性的行业而言,具有提升产品可靠性与用户信任度的现实意义。
数据集最近研究
最新研究方向
随着多模态人工智能技术的飞速发展,大型视频语言模型在理解和生成视频内容方面展现出巨大潜力,但其产生的幻觉问题已成为制约模型可靠性的关键瓶颈。VideoHallucer作为首个针对视频语言模型幻觉检测的综合性基准,将幻觉系统划分为内在与外在两大类别,并细分为对象关系、时序、语义细节、外部事实与非事实等多个子类,为深入探究模型幻觉的成因与机制提供了结构化框架。当前研究前沿聚焦于利用对抗性二元视频问答方法,通过精心设计的基础问题与幻觉问题对,全面评估模型的幻觉倾向与鲁棒性。这一方向不仅推动了视频语言模型的可解释性与可信度研究,更与自动驾驶、智能监控等实际应用场景中的安全需求紧密相连,为构建可靠的多模态人工智能系统奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作