VidHal

github2024-12-02 更新2024-12-06 收录

下载链接：

https://github.com/Lookuz/VidHal

下载链接

链接失效反馈

官方服务：

资源简介：

VidHal是一个用于评估和分析视觉语言模型（VLMs）中视频幻觉的基准数据集。它包含了一系列涵盖五个关键时间维度的多样化视频：动作、属性、对象、事件顺序和方向。为了促进对视频幻觉的细粒度评估，引入了新的任务——字幕排序，以及多项选择题回答。

VidHal is a benchmark dataset for evaluating and analyzing video hallucinations in vision-language models (VLMs). It contains a series of diverse videos covering five key temporal dimensions: action, attribute, object, event order, and direction. To facilitate fine-grained evaluation of video hallucinations, two novel tasks are introduced: caption ranking and multiple-choice question answering.

创建时间：

2024-11-21

原始信息汇总

VidHal: Benchmarking Hallucinations in Vision LLMs

概述

VidHal 是一个用于评估和分析视觉语言模型（VLMs）中基于视频的幻觉现象的基准测试。该基准涵盖了五个关键的时间维度：动作、属性、对象、事件顺序和方向。为了进行细粒度的幻觉评估，引入了新的任务——字幕排序，以及多项选择题回答。

数据集下载

标注和预定义的随机选项顺序位于 vidhal 文件夹下。
基准测试数据集视频可以从以下链接下载：视频下载链接，下载后应解压到 vidhal/videos 目录。

环境设置

提供了 requirements.txt 文件，包含运行评估代码所需的基本库和工具。使用 pip 安装这些依赖项以及模型所需的依赖项。

模型评估

推理

推理代码位于 pipelines/inference 目录下。
提供了用于生成模型预测的骨架代码，包括论文中使用的所有评估任务的提示，以及运行推理的接口。
可以通过重写 pipelines/inference/base.py 中的代码来适应您的模型需求。

评估

生成预测后，可以通过运行 evaluate.py 来评估这些响应。
提供了命令行脚本，用于运行 evaluate.py。

模型

提供了用于评估 VideoChat2、VideoLLaMA2、mPLUG-Owl3 和 LLaVA-NeXT-Video 模型的代码。

评估结果

提供了多个最先进的视频 VLMs 在 VidHal 基准测试中的结果。

VLM	MCQA	Naive Caption Ordering	Relative Caption Ordering
VideoChat2 (Vicuna)	0.410	0.490	0.573
VideoChat2 (Mistral)	0.524	0.348	0.579
VideoChat2 (Phi3)	0.468	0.552	0.522
mPLUG-Owl3	0.596	0.641	0.707
LLaVA-NeXT-Video (7B)	0.509	0.518	0.620
LLaVA-NeXT-Video (32B)	0.663	0.641	0.747
VideoLLaMA2 (7B)	0.541	0.564	0.622
VideoLLaMA2 (72B)	0.647	0.787	0.760
GPT-4o	0.772	0.840	0.826
Gemini-1.5 Flash	0.657	0.738	0.745
Gemini-1.5 Pro	0.671	0.765	0.753

引用

如果发现我们的工作对您的研究有价值或有用，请考虑引用。

@article{choong2024vidhal, title={VidHal: Benchmarking Temporal Hallucinations in Vision LLMs}, author={Wey Yeh Choong and Yangyang Guo and Mohan Kankanhalli}, journal={arXiv preprint arXiv:2411.16771}, year={2024} }

搜集汇总

数据集介绍

构建方式

VidHal数据集的构建旨在评估和分析视觉语言模型（VLMs）中的视频幻觉现象。该数据集涵盖了五个关键的时间维度：动作、属性、对象、事件顺序和方向。为了实现对视频幻觉的细粒度评估，研究团队引入了一项新颖的任务——字幕排序，以及多项选择题回答。数据集的构建过程包括收集多样化的视频素材，并对其进行详细的标注和预定义的随机选项顺序设定。

特点

VidHal数据集的特点在于其多维度的视频内容覆盖和细粒度的评估任务设计。数据集不仅包含了丰富的视频素材，还通过字幕排序和多项选择题回答任务，提供了对模型性能的全面评估。此外，数据集的构建考虑了视频幻觉的多种表现形式，使得研究者能够更深入地理解和分析视觉语言模型中的幻觉问题。

使用方法

使用VidHal数据集进行模型评估时，首先需要下载数据集的视频和标注文件，并按照指示进行环境设置。随后，用户可以通过提供的推理代码生成模型预测，并使用评估代码将预测结果与真实答案进行比较。具体操作包括在推理阶段覆盖或实现特定的提示格式和响应生成逻辑，以及在评估阶段运行相应的脚本进行结果评估。

背景与挑战

背景概述

VidHal数据集由Wey Yeh Choong、Yangyang Guo和Mohan Kankanhalli等研究人员于2024年创建，旨在评估和分析视觉语言模型（VLMs）中的视频幻觉现象。该数据集涵盖了五个关键的时间维度：动作、属性、对象、事件顺序和方向，并通过引入新的任务——字幕排序和多项选择问答，以实现对视频幻觉的细粒度评估。VidHal的推出不仅为视觉语言模型的研究提供了新的基准，还推动了视频内容理解领域的发展，特别是在多模态数据处理和时间序列分析方面。

当前挑战

VidHal数据集在构建过程中面临多项挑战。首先，视频数据的多模态特性要求模型能够同时处理视觉和语言信息，这对模型的复杂性和计算资源提出了高要求。其次，字幕排序任务的引入增加了数据标注的复杂性，需要精确的时间序列标注和多样的视频内容覆盖。此外，评估模型的幻觉现象需要设计精细的评估指标和方法，以确保评估结果的准确性和可靠性。最后，数据集的多样性和广泛性要求研究人员在数据收集和处理过程中保持高度的专业性和严谨性，以确保数据集的质量和应用价值。

常用场景

经典使用场景

VidHal数据集的经典使用场景主要集中在视觉语言模型（VLMs）中的视频幻觉评估与分析。通过提供涵盖动作、属性、对象、事件顺序和方向等五个关键时间维度的多样化视频，VidHal支持对视频幻觉进行细粒度评估。特别是，数据集引入了**字幕排序**这一新颖任务，结合多项选择题回答，为模型在视频理解中的表现提供了全面的评估框架。

衍生相关工作

VidHal数据集的发布催生了一系列相关研究工作，特别是在视觉语言模型和视频理解领域。例如，基于VidHal的评估结果，研究人员提出了多种改进模型，如VideoChat2、VideoLLaMA2、mPLUG-Owl3和LLaVA-NeXT-Video，这些模型在多项选择题回答和字幕排序任务中表现优异。此外，VidHal还促进了视频幻觉检测和纠正算法的发展，为视频分析技术的进步提供了新的方向。

数据集最近研究