five

VideoHallu

收藏
Hugging Face2025-05-06 更新2025-05-07 收录
下载链接:
https://huggingface.co/datasets/IntelligenceLab/VideoHallu
下载链接
链接失效反馈
官方服务:
资源简介:
VideoHallu是一个用于评估和减轻合成视频中的多模态幻觉的基准数据集。该数据集包括由流行模型如Sora、Veo2和Kling生成的合成视频,以及易于用人类水平的感知和推理解决的专家设计的问答对示例。基准测试分为四个问题类别:对齐、时空一致性、常识推理和物理。数据集可以在HuggingFace上找到,可以下载并用于模型训练和评估。
创建时间:
2025-05-02
原始信息汇总

VideoHallu 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 视觉问答 (Visual Question Answering)
  • 语言: 英语 (en)

数据集简介

VideoHallu 是一个用于评估和缓解合成视频多模态幻觉的基准数据集。该数据集由流行模型(如 Sora、Veo2、Kling)生成的合成视频组成,并配有专家精心设计的问题-答案对,涵盖多个类别。

数据集特点

  • 类别划分:

    • Alignment: 检查模型是否正确识别和理解实体。
    • Spatial-temporal Consistency: 检查模型是否能跟踪实体在帧间的运动。
    • Common Sense Reasoning: 测试模型的常识推理能力。
    • Physics: 评估模型对物理定律的应用能力。
  • 数据集规模:

    • 更新日期: 2025年5月2日
    • 大小: 3233个样本

数据集使用

  • 下载方式: bash huggingface-cli download IntelligenceLab/VideoHallu --repo-type dataset --local-dir ./new_video_folders --local-dir-use-symlinks False

评估结果

  • 评估模型: 包括 GPT-4o、Gemini-2.5-Pro、Qwen-2.5-VL 等前沿模型。
  • 主要发现: 模型在合成视频的常识和物理推理任务中表现不佳,存在幻觉现象。

训练与微调

  • 训练方法: 使用 Group Relative Policy Optimization (GRPO) 对 Qwen-2.5-VL-7B 进行微调。
  • 微调结果: 微调后的模型在合成视频理解任务中表现提升,尤其是在常识和物理推理方面。

引用

如需使用该数据集,请引用以下论文: bibtex @misc{li2025videohalluevaluatingmitigatingmultimodal, title={VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos}, author={Zongxia Li and Xiyang Wu and Yubin Qin and Guangyao Shi and Hongyang Du and Dinesh Manocha and Tianyi Zhou and Jordan Lee Boyd-Graber}, year={2025}, eprint={2505.01481}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.01481}, }

相关资源

  • 论文: https://arxiv.org/abs/2505.01481
  • 网站: https://wuxiyang1996.github.io/videohallu_page/
  • HuggingFace 数据集页面: https://huggingface.co/datasets/IntelligenceLab/VideoHallu
搜集汇总
数据集介绍
构建方式
VideoHallu数据集的构建基于前沿合成视频生成技术,通过整合Sora、Veo2、Kling等主流模型生成的合成视频素材,结合专家精心设计的问答对样本,构建了一个多模态评估基准。研究团队采用分层抽样策略,覆盖对齐性、时空一致性、常识推理和物理规律四大核心维度,每个维度下设精细的子类别标注,确保评估体系的全面性和科学性。数据采集过程严格遵循质量控制流程,最终形成包含3233个样本的高质量数据集。
使用方法
使用该数据集时,研究者可通过HuggingFace平台直接下载完整资源包,包含视频文件及对应的标注数据。评估流程建议采用标准化的视频问答范式,输入合成视频和对应问题,比对模型输出与专家标注的参考答案。数据集已预分割为训练集和测试集,支持开箱即用的基准测试。对于模型微调任务,研究团队提供了详细的训练配置指南和预处理脚本,推荐采用课程学习策略逐步融合真实世界物理数据与合成数据,以获得最佳性能提升。
背景与挑战
背景概述
VideoHallu数据集由马里兰大学等机构的研究团队于2025年提出,旨在解决合成视频生成模型中存在的多模态幻觉问题。随着Sora、Veo2等基础模型在合成视频生成领域取得突破性进展,其生成的视频虽在视觉连贯性上表现优异,却常常违背常识推理和物理定律。该数据集通过整合来自主流视频生成模型的合成视频,并配以专家精心设计的问答对,为评估多模态大语言模型在合成视频理解中的表现提供了标准化基准。其创新性地将评估维度细分为对齐性、时空一致性、常识推理和物理合理性四个层级,推动了视频生成质量评估从单纯视觉保真度向多模态语义一致性的范式转变。
当前挑战
VideoHallu数据集面临的核心挑战体现在两个维度:在领域问题层面,现有视频评估指标如VideoScore仅关注通用视频质量,难以捕捉合成视频中违反常识和物理定律的细微异常;而多模态大语言模型作为可解释评估工具,其检测合成视频异常的能力尚未得到充分验证。在构建过程中,研究团队需要克服合成视频样本采集的复杂性,确保覆盖多样化的异常类型;同时专家标注过程需严格保持问题设计的科学性,平衡不同推理难度层级的样本分布。此外,基线模型评估表明,即使是Video-R1等前沿视频理解模型,在合成视频的物理和常识推理任务上仍存在显著幻觉现象,凸显了该领域的技术挑战。
常用场景
经典使用场景
在合成视频生成领域,VideoHallu数据集为多模态大语言模型(MLLMs)的评估提供了基准测试平台。该数据集通过专家标注的问答对,系统性地检验模型在实体对齐、时空一致性、常识推理和物理规律理解等维度的表现。其经典使用场景包括对Sora、Veo2等前沿视频生成模型产出的合成视频进行多模态幻觉检测,为模型优化提供可解释的评估依据。
解决学术问题
VideoHallu有效解决了合成视频评估中缺乏细粒度幻觉量化标准的问题。传统评估方法如VideoScore仅关注视频质量,而该数据集通过构建四类核心问题,揭示了MLLMs在合成视频理解中存在的常识缺失和物理规律违背现象。其创新性的评估框架推动了多模态模型在语义一致性、逻辑推理等方面的研究进展,为提升合成视频的可信度提供了理论基础。
实际应用
该数据集在视频内容审核、教育媒体生成等领域具有重要应用价值。通过检测合成视频中的异常内容,可辅助优化AI视频生成系统的可靠性。在影视特效制作中,其评估指标能有效识别违反物理规律的特效画面;在教育视频自动生成场景,可确保教学内容的科学性和逻辑严谨性,避免传播错误知识。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,合成视频的质量与真实感不断提升,但随之而来的多模态幻觉问题日益凸显。VideoHallu数据集应运而生,专注于评估和缓解合成视频中的多模态幻觉现象。当前研究前沿聚焦于利用多模态大语言模型(MLLMs)作为可解释的视频评估器,探索其在检测合成视频中违反常识和物理规律的异常内容方面的能力。该数据集通过专家精心设计的问答对,覆盖了从感知对齐到高级抽象推理的多个层次,为模型评估提供了全面而细致的基准。近期研究热点包括对GPT-4o、Gemini-2.5-Pro等前沿模型的性能评估,以及通过Group Relative Policy Optimization(GRPO)等方法提升模型在常识和物理推理任务上的表现。这一研究方向不仅揭示了当前MLLMs在合成视频理解上的局限性,也为未来视频生成模型的优化提供了重要参考,具有推动多模态人工智能向更可靠、更可解释方向发展的深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作