ViBe

Name: ViBe
Creator: 南卡罗来纳大学人工智能研究所
Published: 2024-11-17 03:23:12
License: 暂无描述

arXiv2024-11-17 更新2024-11-20 收录

下载链接：

https://vibe-t2v-bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

ViBe数据集由南卡罗来纳大学人工智能研究所创建，是一个大规模的文本到视频（T2V）模型幻觉视频基准。该数据集包含3782个视频，这些视频由10个开源T2V模型生成，并使用MS COCO数据集的700个随机选择的标题进行提示。数据集的创建过程包括对生成的视频进行人工标注，将其分类为五种主要的幻觉类型。ViBe数据集主要用于评估和改进T2V模型的可靠性，特别是在检测和缓解视频生成中的幻觉现象方面。

The ViBe dataset, created by the Artificial Intelligence Institute at the University of South Carolina, is a large-scale text-to-video (T2V) model hallucination video benchmark. This dataset comprises 3,782 videos generated by 10 open-source T2V models, with prompts randomly selected from 700 captions of the MS COCO dataset. The dataset creation process includes manual annotation of the generated videos and classification of these videos into five primary hallucination categories. The ViBe dataset is primarily utilized to evaluate and enhance the reliability of T2V models, especially in detecting and mitigating hallucinations in video generation.

提供机构：

南卡罗来纳大学人工智能研究所

创建时间：

2024-11-17

搜集汇总

数据集介绍

构建方式

ViBe数据集的构建基于从MS COCO数据集中随机选取的700个描述性文本提示，这些提示被输入到10个开源的文本到视频（T2V）模型中，包括MS1.7B、MagicTime、AnimateDiffMotionAdapter等。生成的视频通过人工注释，被分类为五种主要的幻觉类型：消失主体、数量变异、时间变形、遗漏错误和物理不一致。此外，还使用了两个闭源的高级模型（Runway和Luma）生成了约40-50个视频，以验证幻觉现象的普遍性。整个数据集包含3,782个视频，每个视频都经过详细的人工注释，确保了数据集的多样性和质量。

使用方法

ViBe数据集主要用于评估和改进文本到视频生成模型的幻觉检测能力。研究人员可以使用该数据集训练和测试各种分类模型，以识别和分类视频中的幻觉现象。通过使用TimeSFormer和VideoMAE等预训练模型提取视频嵌入，结合LSTM、CNN、Transformer等多种分类算法，可以实现对幻觉类型的精确分类。此外，ViBe还提供了详细的注释指南和基准测试结果，帮助研究人员在实际应用中更好地理解和利用数据集，从而开发出更加准确和可靠的T2V模型。

背景与挑战

背景概述

随着大型多模态模型（LMMs）的最新进展，视频理解能力得到了显著扩展。特别是文本到视频（T2V）模型在质量、理解和时长方面取得了重大进展，能够从简单的文本提示中生成高质量的视频。然而，这些模型仍经常生成幻觉内容，明显表明视频是AI生成的。为了应对这一问题，ViBe数据集由南卡罗来纳大学AI研究所等机构的研究人员于2024年创建，旨在系统地研究和分类T2V模型中的幻觉现象。该数据集包含3,782个由人类注释的视频，涵盖五种主要幻觉类型，为评估和改进T2V模型的可靠性提供了独特资源。

当前挑战

ViBe数据集面临的挑战主要集中在两个方面：一是解决领域问题的挑战，即如何减少T2V模型生成的幻觉内容，确保视频与输入文本的高度一致性；二是构建过程中的挑战，包括从MS COCO数据集中随机选择700个描述性文本提示，并使用10个开源T2V模型生成视频，这些模型在生成过程中经常遇到幻觉问题。此外，数据集的注释过程也面临挑战，如多重幻觉的识别和注释者之间的一致性问题，这些都需要通过精细的注释指南和一致性评估来解决。

常用场景

经典使用场景

ViBe数据集的经典使用场景在于评估和改进文本到视频（T2V）生成模型中的幻觉现象。通过提供大量标注的视频数据，ViBe允许研究人员系统地分析和分类不同类型的幻觉，如消失主体、数字变异、时间变形、遗漏错误和物理不一致性。这种详细的分类和标注为模型开发者提供了宝贵的资源，帮助他们识别和解决T2V模型在生成视频时常见的错误，从而提升模型的准确性和可靠性。

解决学术问题

ViBe数据集解决了文本到视频生成领域中的一个关键学术问题，即幻觉现象的检测和分类。通过提供一个大规模、多类别标注的视频数据集，ViBe为研究人员提供了一个标准化的框架，用于评估和比较不同T2V模型的性能。这不仅有助于揭示现有模型的局限性，还为开发更精确和可靠的T2V模型奠定了基础。ViBe的引入极大地推动了该领域的研究进展，促进了幻觉检测和缓解技术的创新。

实际应用

ViBe数据集在实际应用中具有广泛的价值，特别是在需要高精度文本到视频生成的领域，如内容创作、教育和模拟系统。通过使用ViBe数据集进行模型训练和评估，开发者可以显著提高T2V模型的输出质量，减少幻觉现象的发生。这不仅提升了用户体验，还增强了生成内容的可信度和实用性。此外，ViBe数据集还可用于开发自动化工具，帮助内容创作者快速生成符合描述的视频，提高工作效率。

数据集最近研究