VideoHallu

Hugging Face2025-05-06 更新2025-05-07 收录

下载链接：

https://huggingface.co/datasets/IntelligenceLab/VideoHallu

下载链接

链接失效反馈

官方服务：

资源简介：

VideoHallu是一个用于评估和减轻合成视频中的多模态幻觉的基准数据集。该数据集包括由流行模型如Sora、Veo2和Kling生成的合成视频，以及易于用人类水平的感知和推理解决的专家设计的问答对示例。基准测试分为四个问题类别：对齐、时空一致性、常识推理和物理。数据集可以在HuggingFace上找到，可以下载并用于模型训练和评估。

创建时间：

2025-05-02

原始信息汇总

VideoHallu 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 视觉问答 (Visual Question Answering)
语言: 英语 (en)

数据集简介

VideoHallu 是一个用于评估和缓解合成视频多模态幻觉的基准数据集。该数据集由流行模型（如 Sora、Veo2、Kling）生成的合成视频组成，并配有专家精心设计的问题-答案对，涵盖多个类别。

数据集特点

类别划分:
- Alignment: 检查模型是否正确识别和理解实体。
- Spatial-temporal Consistency: 检查模型是否能跟踪实体在帧间的运动。
- Common Sense Reasoning: 测试模型的常识推理能力。
- Physics: 评估模型对物理定律的应用能力。
数据集规模:
- 更新日期: 2025年5月2日
- 大小: 3233个样本

数据集使用

下载方式: bash huggingface-cli download IntelligenceLab/VideoHallu --repo-type dataset --local-dir ./new_video_folders --local-dir-use-symlinks False

评估结果

评估模型: 包括 GPT-4o、Gemini-2.5-Pro、Qwen-2.5-VL 等前沿模型。
主要发现: 模型在合成视频的常识和物理推理任务中表现不佳，存在幻觉现象。

训练与微调

训练方法: 使用 Group Relative Policy Optimization (GRPO) 对 Qwen-2.5-VL-7B 进行微调。
微调结果: 微调后的模型在合成视频理解任务中表现提升，尤其是在常识和物理推理方面。

引用

如需使用该数据集，请引用以下论文： bibtex @misc{li2025videohalluevaluatingmitigatingmultimodal, title={VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos}, author={Zongxia Li and Xiyang Wu and Yubin Qin and Guangyao Shi and Hongyang Du and Dinesh Manocha and Tianyi Zhou and Jordan Lee Boyd-Graber}, year={2025}, eprint={2505.01481}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.01481}, }

相关资源

论文: https://arxiv.org/abs/2505.01481
网站: https://wuxiyang1996.github.io/videohallu_page/
HuggingFace 数据集页面: https://huggingface.co/datasets/IntelligenceLab/VideoHallu

搜集汇总

数据集介绍

构建方式

VideoHallu数据集的构建基于前沿合成视频生成技术，通过整合Sora、Veo2、Kling等主流模型生成的合成视频素材，结合专家精心设计的问答对样本，构建了一个多模态评估基准。研究团队采用分层抽样策略，覆盖对齐性、时空一致性、常识推理和物理规律四大核心维度，每个维度下设精细的子类别标注，确保评估体系的全面性和科学性。数据采集过程严格遵循质量控制流程，最终形成包含3233个样本的高质量数据集。

使用方法

使用该数据集时，研究者可通过HuggingFace平台直接下载完整资源包，包含视频文件及对应的标注数据。评估流程建议采用标准化的视频问答范式，输入合成视频和对应问题，比对模型输出与专家标注的参考答案。数据集已预分割为训练集和测试集，支持开箱即用的基准测试。对于模型微调任务，研究团队提供了详细的训练配置指南和预处理脚本，推荐采用课程学习策略逐步融合真实世界物理数据与合成数据，以获得最佳性能提升。

背景与挑战

背景概述

VideoHallu数据集由马里兰大学等机构的研究团队于2025年提出，旨在解决合成视频生成模型中存在的多模态幻觉问题。随着Sora、Veo2等基础模型在合成视频生成领域取得突破性进展，其生成的视频虽在视觉连贯性上表现优异，却常常违背常识推理和物理定律。该数据集通过整合来自主流视频生成模型的合成视频，并配以专家精心设计的问答对，为评估多模态大语言模型在合成视频理解中的表现提供了标准化基准。其创新性地将评估维度细分为对齐性、时空一致性、常识推理和物理合理性四个层级，推动了视频生成质量评估从单纯视觉保真度向多模态语义一致性的范式转变。

当前挑战

VideoHallu数据集面临的核心挑战体现在两个维度：在领域问题层面，现有视频评估指标如VideoScore仅关注通用视频质量，难以捕捉合成视频中违反常识和物理定律的细微异常；而多模态大语言模型作为可解释评估工具，其检测合成视频异常的能力尚未得到充分验证。在构建过程中，研究团队需要克服合成视频样本采集的复杂性，确保覆盖多样化的异常类型；同时专家标注过程需严格保持问题设计的科学性，平衡不同推理难度层级的样本分布。此外，基线模型评估表明，即使是Video-R1等前沿视频理解模型，在合成视频的物理和常识推理任务上仍存在显著幻觉现象，凸显了该领域的技术挑战。

常用场景

经典使用场景

在合成视频生成领域，VideoHallu数据集为多模态大语言模型（MLLMs）的评估提供了基准测试平台。该数据集通过专家标注的问答对，系统性地检验模型在实体对齐、时空一致性、常识推理和物理规律理解等维度的表现。其经典使用场景包括对Sora、Veo2等前沿视频生成模型产出的合成视频进行多模态幻觉检测，为模型优化提供可解释的评估依据。

解决学术问题

VideoHallu有效解决了合成视频评估中缺乏细粒度幻觉量化标准的问题。传统评估方法如VideoScore仅关注视频质量，而该数据集通过构建四类核心问题，揭示了MLLMs在合成视频理解中存在的常识缺失和物理规律违背现象。其创新性的评估框架推动了多模态模型在语义一致性、逻辑推理等方面的研究进展，为提升合成视频的可信度提供了理论基础。

实际应用

该数据集在视频内容审核、教育媒体生成等领域具有重要应用价值。通过检测合成视频中的异常内容，可辅助优化AI视频生成系统的可靠性。在影视特效制作中，其评估指标能有效识别违反物理规律的特效画面；在教育视频自动生成场景，可确保教学内容的科学性和逻辑严谨性，避免传播错误知识。

数据集最近研究