VIDHAL|视觉大语言模型数据集|视频幻觉数据集

arXiv2024-11-25 更新2024-11-28 收录

视觉大语言模型

视频幻觉

下载链接：

https://github.com/Lookuz/VidHal

下载链接

链接失效反馈

资源简介：

VIDHAL数据集由新加坡国立大学创建，专门用于评估视觉大语言模型（VLLMs）在视频中的幻觉问题。该数据集包含1000个视频实例，覆盖了广泛的时间维度，如实体动作和事件序列。每个视频通过自动注释生成多个带有不同幻觉级别的字幕，以捕捉细微和显著的差异。数据集的创建过程包括从现有数据集中选择视频实例，生成锚定字幕，并使用GPT-4o生成幻觉字幕。VIDHAL旨在解决视频内容中复杂的时间动态导致的幻觉问题，特别是在视频特定的时间方面，如运动方向和事件的时序。

提供机构：

新加坡国立大学

创建时间：

2024-11-25

AI搜集汇总

数据集介绍

构建方式

VIDHAL数据集的构建基于对视频实例的时空特性的全面覆盖，通过从公开的视频理解数据集中抽取视频片段，并对其进行详细的标注。具体而言，VIDHAL涵盖了动作、方向、事件顺序、对象和属性等多个时空方面，每个视频片段都配备了多个描述不同幻觉程度（从轻微到严重）的标注。为了确保标注的准确性和可靠性，研究团队采用了GPT-4o模型自动生成标注，并通过人工验证来确保标注的质量。此外，VIDHAL还引入了一种新颖的标注排序任务，要求模型根据幻觉程度对标注进行排序，从而实现对视频理解模型幻觉生成能力的细粒度评估。

使用方法

使用VIDHAL数据集进行模型评估时，研究者可以利用其提供的多选题回答（MCQA）和标注排序任务来测试模型的视频理解能力。具体操作包括：首先，使用MCQA任务评估模型对视频内容的粗粒度理解；其次，通过标注排序任务评估模型对视频幻觉程度的细粒度区分能力。此外，VIDHAL还提供了详细的评估指标，如归一化累积增益（NDCG）和多选题准确率，帮助研究者全面分析模型的性能。通过这些任务和指标，研究者可以深入了解模型在视频理解中的幻觉问题，并据此进行针对性的改进。

背景与挑战

背景概述

VIDHAL数据集由新加坡国立大学的研究人员创建，旨在评估视觉大型语言模型（VLLMs）在视频输入中的幻觉问题。该数据集的构建基于对视频内容的时空动态的深入理解，通过精心设计的字幕生成和排序任务，捕捉与视频相关的不同层次的幻觉。VIDHAL的推出填补了现有研究在视频幻觉评估方面的空白，为推动VLLMs在视频理解领域的进一步发展提供了重要的基准。

当前挑战

VIDHAL数据集面临的挑战主要集中在两个方面：一是如何准确评估视频内容中的幻觉问题，现有的评估方法往往无法捕捉到视频中细微的错误；二是如何在构建过程中确保字幕的生成和排序能够真实反映视频内容，这需要克服自动生成字幕时的噪声和误差。此外，VIDHAL还面临如何设计有效的评估任务和指标，以捕捉VLLMs在视频理解中的细微幻觉错误，这需要创新的方法和严格的验证过程。

常用场景

经典使用场景

VIDHAL数据集的经典使用场景在于评估视觉大型语言模型（VLLMs）在视频理解任务中的时间幻觉问题。通过提供包含多种时间概念的视频实例，VIDHAL允许研究者对模型生成的描述进行细致的幻觉程度评估。具体任务包括多选题回答（MCQA）和标题排序，要求模型根据幻觉程度对标题进行排序，从而揭示模型在处理视频时空动态时的细微错误。

解决学术问题

VIDHAL数据集解决了当前视觉大型语言模型在视频理解中普遍存在的时间幻觉问题。现有研究主要集中在图像输入的幻觉评估，而VIDHAL通过引入视频基准，填补了这一研究空白。该数据集不仅提供了丰富的视频实例，还设计了新颖的评估任务和指标，如标题排序任务，以捕捉模型在生成响应时的细微错误，从而推动了对VLLMs能力的全方位理解，特别是关于幻觉生成的问题。

实际应用

VIDHAL数据集在实际应用中具有重要意义，特别是在需要高度可靠性的视频理解任务中。例如，在智能监控、自动驾驶和视频内容审核等领域，VIDHAL可以帮助开发者和研究人员识别和缓解模型在处理复杂视频内容时可能产生的幻觉，从而提高系统的整体可靠性和安全性。通过提供详细的幻觉评估，VIDHAL有助于推动这些领域中VLLMs的实际应用和部署。

数据集最近研究

相关研究论文

1
VidHal: Benchmarking Temporal Hallucinations in Vision LLMs新加坡国立大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集，旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据，具有广泛的应用前景和重要的研究价值。

阿里云天池收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录