GenS-Video150K
收藏arXiv2025-03-12 更新2025-03-14 收录
下载链接:
https://generative-sampler.github.io
下载链接
链接失效反馈官方服务:
资源简介:
GenS-Video150K是一个大规模合成的视频问答数据集,包含丰富的视频问题相关的帧注释。该数据集由北京大学、Salesforce Research和独立研究者共同构建,提供了大约20%的帧被标记为相关,并为每个相关帧分配了1到5级的细化置信度评分。数据集通过一个四阶段的管道生成,利用GPT-4o进行密集的视频帧字幕标注、构建视频问答对、扩展相关帧集合以及为相关帧打分。该数据集旨在帮助训练视频问答助手,更好地理解长时间视频内容。
GenS-Video150K is a large-scale synthetic video question answering (VideoQA) dataset with abundant frame annotations relevant to video questions. Developed jointly by Peking University, Salesforce Research, and independent researchers, this dataset marks approximately 20% of frames as relevant, and assigns a refined confidence score ranging from 1 to 5 to each relevant frame. The dataset is generated through a four-stage pipeline, which utilizes GPT-4o to conduct dense video frame captioning, build video question-answer pairs, expand the collection of relevant frames, and assign scores to relevant frames. This dataset is designed to facilitate the training of video QA assistants to better comprehend long-form video content.
提供机构:
北京大学, Salesforce Research, 独立研究者
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
GenS-Video150K数据集的构建是为了解决长视频理解中的效率问题,该数据集包含了密集的帧相关性标注,旨在帮助Generative Frame Sampler (GenS)模块有效地识别问题相关的帧。数据集的构建分为四个阶段:首先进行密集的视频帧描述;其次基于这些描述生成包含定位帧的视频问答对;第三步扩展相关帧集;最后对候选的相关帧进行细粒度的相关性评分。通过GPT-4o进行合成数据创建,确保数据质量并适应长视频理解的需求。
特点
GenS-Video150K数据集的特点在于其密集的帧相关性标注和细粒度的评分。数据集中约20%的帧被标注为相关,并且每个相关帧都被分配了特定的置信度评分(1-5),这为GenS提供了丰富的监督信号。此外,数据集涵盖了多样化的视频主题和灵活的用户指令,使其能够训练出鲁棒的帧采样器。GenS-Video150K的数据构建过程考虑到了长视频理解的挑战,通过GPT-4o的辅助,确保了数据集的高质量和实用性。
使用方法
使用GenS-Video150K数据集时,需要将其与GenS模块结合,GenS是一个基于VideoLLM的生成式帧采样器,它通过理解用户指令来检索相关帧。GenS可以作为一个即插即用的模块,与现有的VideoQA助手集成,以增强长视频的感知能力。在训练时,GenS可以使用GenS-Video150K和其他事件级视频数据集进行训练。在推理过程中,GenS处理视频并以任意帧率检索具有置信度评分的指令相关帧,然后将这些帧按置信度排序,并选择前K帧作为VideoQA模型的输入。GenS的设计使其能够灵活处理不同的候选帧数量和采样密度,适应各种下游VideoQA模型的需求。
背景与挑战
背景概述
近年来,大型多模态模型(LMMs)在视频语言理解方面取得了显著进展,然而,对于长视频的理解仍然是一个重大挑战。长视频包含数千帧,给计算带来了巨大的负担。为了缓解这个问题,这篇论文介绍了生成式帧采样器(GenS),这是一个即插即用的模块,可以集成到视频大语言模型(VideoLLMs)中,以促进高效的长时间视频感知。GenS基于轻量级的VideoLLM,利用其固有的视觉语言能力来识别与问题相关的帧。为了促进有效的检索,我们构建了GenS-Video150K,这是一个大规模的视频指令数据集,具有密集的帧相关性注释。广泛的实验表明,GenS始终如一地提高了各种VideoLLMs的性能,包括开源模型(Qwen2VL-7B、Aria-25B、VILA-40B、LLaVA-Video7B/72B)和专有助手(GPT-4o、Gemini)。当配备GenS时,开源VideoLLMs在长视频基准测试中取得了令人印象深刻的最先进结果:LLaVA-Video-72B在LongVideoBench上达到66.8(+4.3),在MLVU上达到77.0(+2.7),而Aria在HourVideo上获得39.2,比Gemini-1.5-pro高出1.9分。我们将发布所有数据集和模型,网址为https://generative-sampler.github.io。
当前挑战
GenS-Video150K数据集的构建面临着两个主要挑战。首先,训练数据的短缺,现有的视频指令数据集(如Zhang et al. 2024b;Maaz et al. 2024;Liu et al.)缺乏对多种视频和用户指令的密集相关帧注释。其次,相关帧采样的最佳生成格式尚未得到充分探索。为了解决第一个挑战,我们引入了GenS-Video150K,这是一个具有密集相关帧注释的大规模视频指令数据集,通过GPT-4o进行注释。相关帧注释是密集的,大约20%的帧被标记为相关,并且具有细粒度的评分,每个相关帧都被分配了特定的置信度评分(1-5)。对于第二个挑战,我们探索了不同的生成格式来索引相关帧。实证结果表明,直接在视觉帧之前添加文本标签(“帧号[N]”)足以区分连续帧。GenS将相关帧跨度及其置信度评分作为自然语言生成任务输出({"帧Nstart-Nend:相关性评分", ...})。
常用场景
经典使用场景
GenS-Video150K数据集主要用于解决长视频理解中的挑战。该数据集包含丰富的帧级相关性标注,使得基于视频的大语言模型(VideoLLM)能够高效地识别与问题相关的帧。GenS-Video150K通过其稠密的帧级标注和细粒度的置信度评分,为VideoLLM提供了丰富的训练数据,从而提高了视频问答(VideoQA)任务的准确性和效率。
实际应用
GenS-Video150K数据集在实际应用中具有广泛的应用前景。它可以帮助视频问答(VideoQA)系统更准确地回答用户的问题,从而提高用户体验。此外,GenS-Video150K还可以用于视频内容分析、视频摘要生成、视频搜索等领域。例如,在视频内容分析中,GenS-Video150K可以帮助识别视频中的关键帧,从而更好地理解视频内容。在视频摘要生成中,GenS-Video150K可以帮助选择最相关的帧来生成视频摘要。在视频搜索中,GenS-Video150K可以帮助用户更准确地找到他们想要的视频。
衍生相关工作
GenS-Video150K数据集的提出促进了长视频理解领域的研究。它为VideoLLM的训练提供了丰富的数据,从而提高了视频问答(VideoQA)任务的准确性和效率。此外,GenS-Video150K的提出还推动了帧采样技术的发展。GenS-Video150K通过提供稠密的帧级标注和细粒度的置信度评分,使得VideoLLM能够高效地识别与问题相关的帧,从而提高了视频问答(VideoQA)任务的准确性和效率。GenS-Video150K的提出还为长视频理解领域的其他研究提供了重要的参考。例如,GenS-Video150K的稠密的帧级标注和细粒度的置信度评分可以用于训练其他类型的视频理解模型,从而推动长视频理解领域的发展。
以上内容由遇见数据集搜集并总结生成



