VideoHallu

github2025-05-06 更新2025-05-07 收录

下载链接：

https://github.com/zli12321/VideoHallu

下载链接

链接失效反馈

官方服务：

资源简介：

VideoHallu是一个基准测试集，由流行模型如Sora、Veo2、Kling生成的合成视频构建而成，并配有专家制作的问答对示例，这些示例可以轻松通过人类水平的感知和推理解决。该数据集旨在评估多模态大语言模型（MLLMs）在合成视频中检测异常内容的能力。

VideoHallu is a benchmark dataset constructed from synthetic videos generated by popular models such as Sora, Veo2, and Kling, accompanied by question-answer pairs crafted by experts, which can be readily resolved through human-level perception and reasoning. This dataset is designed to evaluate the capability of multi-modal large language models (MLLMs) in detecting anomalous content within synthetic videos.

创建时间：

2025-05-02

原始信息汇总

VideoHallu 数据集概述

数据集基本信息

名称: VideoHallu
发布日期: 2025年5月2日
数据集大小: 3233个样本
存储位置: HuggingFace
相关论文: VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos

数据集简介

VideoHallu是一个用于评估和缓解合成视频中多模态幻觉的基准数据集。该数据集由流行的视频生成模型（如Sora、Veo2、Kling）生成的合成视频组成，并配有专家精心设计的问答对示例。

数据集类别

数据集包含四个主要问题类别：

Alignment: 检查模型是否正确识别和理解实体。
Spatial-temporal Consistency: 检查模型是否能跟踪实体在帧间的运动。
Common Sense Reasoning: 测试模型基于知识的推理能力。
Physics: 评估模型对物理定律的应用能力。

数据集结构

数据格式: JSON文件
主要文件:
- synthetic_data_split.json
- physbench_train_split.json

评估模型

数据集评估了多个先进的MLLMs，包括：

GPT-4o
Gemini-2.5-Pro
Qwen-2.5-VL
Video-R1
VideoChat-R1

训练与微调

训练方法: 使用Group Relative Policy Optimization (GRPO)对Qwen-2.5-VL-7B进行微调。
训练数据: 包含真实世界和合成的常识/物理数据集。
结果: 微调后的模型在合成视频理解方面表现更优。

奖励模型

基础模型: ModernBERT
微调数据集: MOCHA, Prometheus-preference, Pedants
功能: 评估自由形式的文本生成。

引用

如需使用该数据集，请引用相关论文： bibtex @misc{li2025videohalluevaluatingmitigatingmultimodal, title={VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations for Synthetic Videos}, author={Zongxia Li and Xiyang Wu and Yubin Qin and Guangyao Shi and Hongyang Du and Dinesh Manocha and Tianyi Zhou and Jordan Lee Boyd-Graber}, year={2025}, eprint={2505.01481}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.01481}, }

搜集汇总

数据集介绍

构建方式

VideoHallu数据集的构建基于前沿多模态大语言模型（MLLMs）在合成视频理解中的评测需求，通过整合Sora、Veo2等主流视频生成模型产出的合成视频，配合专家精心设计的跨类别问答对构成基准测试框架。研究团队采用四层次分类体系（实体对齐、时空一致性、常识推理、物理规律）系统化标注异常内容，并通过多轮迭代扩充至3233组数据样本，确保覆盖从感知到高阶推理的全维度评估场景。

使用方法

使用者可通过HuggingFace平台直接下载数据集压缩包，或使用CLI工具进行分片下载。基准测试支持端到端评估流程，包含预训练模型加载、视频特征提取、多轮问答验证等模块。研究人员可基于提供的JSON格式标注文件，结合RewardBert奖励模型对生成答案进行自动化评分，亦能通过课程学习策略微调自有模型，具体实现参考开源代码库中的GRPO优化方案。

背景与挑战

背景概述

VideoHallu数据集由马里兰大学等机构的研究团队于2025年创建，旨在解决合成视频生成模型中存在的多模态幻觉问题。随着Sora、Veo2等基础模型生成视频的逼真度不断提升，其在常识推理和物理规律遵循方面的缺陷日益凸显。该数据集包含3233个专家标注的问答对，涵盖对齐性、时空一致性、常识推理和物理规律四大评估维度，为视频生成模型的可靠性评估提供了首个系统化基准。其创新性地采用多模态大语言模型作为可解释评估工具，推动了生成式视频领域从单纯质量评价向可信度验证的范式转变。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，现有评估方法如VideoScore仅关注视频质量，难以捕捉违反物理定律或常识的异常内容；而多模态大语言模型在合成视频理解中仍存在严重的幻觉现象，尤其在物理推理任务上表现欠佳。在构建层面，需要精确标注合成视频中的各类异常，涉及复杂的跨模态对齐工作；同时需平衡不同推理难度的问题分布，确保评估的全面性。实验表明，即使经过物理数据集增强的模型，在时空一致性任务上仍存在8.3%的性能差距，凸显了合成视频幻觉问题的复杂性。

常用场景

经典使用场景

在合成视频生成领域，VideoHallu数据集通过构建多模态幻觉评估基准，为研究者提供了系统检测模型在视觉一致性、常识推理和物理规律遵循等方面的性能缺陷。该数据集整合了Sora、Veo2等前沿模型生成的合成视频，配合专家标注的问答对，成为验证多模态大语言模型在跨模态理解任务中幻觉现象的黄金标准。其四层级评估框架（对齐性、时空一致性、常识推理和物理规律）尤其适用于剖析模型在复杂场景下的认知偏差。

解决学术问题

VideoHallu有效解决了合成视频质量评估中缺乏细粒度幻觉检测的学术难题。传统评分方法如VideoScore仅关注整体质量，而该数据集通过设计跨模态推理任务，首次系统揭示了模型在实体识别、运动轨迹预测、常识知识应用等维度的缺陷。其标注体系为理解多模态大语言模型的认知边界提供了量化依据，推动了视频生成模型的可解释性研究，填补了该领域评估方法论的重要空白。

实际应用

该数据集在视频生成平台的质量控制环节具有重要应用价值。科技公司可利用其评估框架优化模型参数，减少生成内容中的物理规律违反或逻辑矛盾。教育领域可借助其标注体系开发AI辅助教学工具，检测科普视频中的科学准确性。在内容审核场景，基于该数据集训练的检测模型能自动识别合成视频中的异常内容，为网络信息治理提供技术支持。

数据集最近研究