VERIFIED
收藏arXiv2024-10-11 更新2024-10-15 收录
下载链接:
https://github.com/hlchen23/VERIFIED
下载链接
链接失效反馈官方服务:
资源简介:
VERIFIED是由清华大学开发的自动视频文本标注管道,旨在生成具有可靠静态和动态细节的细粒度视频标注。该数据集包括Charades-FIG、DiDeMo-FIG和ActivityNet-FIG,这些数据集通过使用大型语言模型(LLM)和大型多模态模型(LMM)生成多样化的细粒度标注。数据集的创建过程结合了静态和动态增强的标注模块,并通过细粒度感知噪声评估器过滤不准确的标注。VERIFIED数据集主要应用于视频语料库时刻检索(VCMR)领域,旨在提高模型对视频中细粒度信息的理解和定位能力。
VERIFIED is an automatic video-text annotation pipeline developed by Tsinghua University, which aims to generate fine-grained video annotations with reliable static and dynamic details. This dataset includes Charades-FIG, DiDeMo-FIG, and ActivityNet-FIG, whose diverse fine-grained annotations are generated using Large Language Models (LLMs) and Large Multimodal Models (LMMs). The dataset creation process integrates static and dynamic enhanced annotation modules, and filters out inaccurate annotations via a fine-grained-aware noise evaluator. The VERIFIED dataset is primarily applied in the field of Video Corpus Moment Retrieval (VCMR), aiming to enhance models' ability to understand and localize fine-grained information in videos.
提供机构:
清华大学
创建时间:
2024-10-11
搜集汇总
数据集介绍

构建方式
VERIFIED数据集的构建采用了自动化的视频-文本标注流程,旨在生成具有可靠细粒度静态和动态信息的字幕。具体而言,该流程结合了大型语言模型(LLM)和大型多模态模型(LMM),通过静态和动态增强字幕模块生成多样化的细粒度字幕。为过滤由LLM幻觉引起的不准确标注,研究团队设计了一个细粒度感知噪声评估器,通过微调视频基础模型并引入扰动硬负样本增强对比和匹配损失,从而有效识别和过滤不合理的标注。
特点
VERIFIED数据集的主要特点在于其高精度的细粒度标注,涵盖了丰富的静态和动态视频细节。与以往的粗粒度标注相比,该数据集显著减少了多对多的情况,提供了更为精确的标注。此外,数据集的构建过程充分利用了LLM和LMM的优势,确保了标注的高质量和高效性。
使用方法
VERIFIED数据集适用于需要细粒度视频理解的多种应用场景,如视频检索、视频时刻定位等。研究者和开发者可以利用该数据集训练和评估视频理解模型,特别是那些需要精确理解和区分视频细节的模型。数据集的详细使用方法和代码可在提供的GitHub链接中找到,用户可以根据需要进行下载和应用。
背景与挑战
背景概述
视频语料库时刻检索(VCMR)旨在从大型未修剪的视频语料库中检索与文本查询匹配的视频片段。现有的VCMR方法主要集中在粗粒度的理解上,这限制了模型在面对细粒度查询时精确地定位视频片段的能力。为了解决这一问题,清华大学计算机科学与技术系的研究团队于2024年提出了VERIFIED数据集,这是一个用于细粒度视频理解的VCMR基准。该数据集的核心研究问题是如何在存在部分匹配候选的情况下,从语料库中检索出最佳匹配的视频片段。VERIFIED数据集的提出不仅提升了数据集构建的效率,还通过引入大型语言模型(LLM)和大型多模态模型(LMM)来生成高质量的数据标注,从而推动了细粒度视频理解领域的发展。
当前挑战
VERIFIED数据集面临的挑战主要集中在两个方面:一是如何从视频中提取尽可能多的细粒度信息,特别是动态视频细节;二是如何避免大型语言模型(LLM)和大型多模态模型(LMM)在生成标注时产生的幻觉问题,即生成不准确的内容。此外,构建细粒度视频文本数据集依赖于大量的手动工作和领域知识,这限制了其生产力和可扩展性。为了应对这些挑战,研究团队提出了VERIFIED,一个自动化的视频文本标注流水线,通过引入静态和动态增强的标注模块以及细粒度感知的噪声评估器,来生成多样化的细粒度标注,并过滤掉不准确的内容。
常用场景
经典使用场景
VERIFIED数据集在视频语料库时刻检索(VCMR)任务中展现了其经典应用场景。该数据集通过提供细粒度的视频文本注释,使得模型能够从大规模未修剪的视频语料库中精确检索出最佳匹配的时刻。具体而言,VERIFIED通过结合大型语言模型(LLM)和大型多模态模型(LMM),生成包含可靠静态和动态细节的多样化细粒度字幕,从而显著提升了视频时刻定位的准确性。
解决学术问题
VERIFIED数据集解决了现有VCMR基准在粗粒度理解上的局限性,推动了细粒度视频理解的学术研究。通过引入细粒度查询和部分匹配候选,该数据集促使模型学习更具区分性的视频特征,从而在跨模态检索中表现更优。这一进展不仅提升了视频时刻定位的精确度,还为未来的细粒度视频理解研究提供了新的方向和挑战。
衍生相关工作
VERIFIED数据集的推出催生了多项相关研究工作,特别是在细粒度视频理解和多模态模型结合的领域。例如,基于VERIFIED的细粒度注释,研究者们开发了新的视频时刻检索模型,如CONQUER和SQuiDNet,这些模型在细粒度VCMR任务中表现出色。此外,VERIFIED的自动注释流程也为其他视频数据集的构建提供了新的思路和方法,推动了整个领域的技术进步。
以上内容由遇见数据集搜集并总结生成



