Kinetics-GEBD
收藏arXiv2021-08-19 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/loveucvpr21
下载链接
链接失效反馈官方服务:
资源简介:
Kinetics-GEBD数据集是由新加坡国立大学与Facebook AI共同创建的一个新型视频分析基准。该数据集包含54691个视频片段,专注于检测和分割视频中的通用事件边界,无需预定义的事件类别。数据集的创建基于认知科学的研究,旨在模拟人类自然地将视频内容分割成有意义的片段的能力。Kinetics-GEBD数据集不仅涵盖了广泛的视频领域,还采用了开放词汇而非预定义的分类体系,使得数据集能够捕捉到人类感知的多样性。此数据集的应用领域包括视频编辑、摘要、关键帧选择和亮点检测,旨在推动长格式视频理解的发展。
The Kinetics-GEBD dataset is a novel video analysis benchmark jointly developed by the National University of Singapore and Facebook AI. It comprises 54,691 video clips, focusing on detecting and segmenting general event boundaries in videos without pre-defined event categories. Grounded in cognitive science research, the dataset is designed to simulate the human capacity to naturally segment video content into semantically meaningful segments. Covering a wide spectrum of video domains and adopting an open-vocabulary framework rather than a pre-defined classification system, the Kinetics-GEBD dataset enables the capture of the diversity of human perceptual experience. Its application areas include video editing, summarization, keyframe selection, and highlight detection, with the ultimate goal of advancing the development of long-form video understanding.
提供机构:
新加坡国立大学
创建时间:
2021-01-26
搜集汇总
数据集介绍

构建方式
Kinetics-GEBD数据集的构建以Kinetics-400视频数据集为基础,旨在标注视频中的通用事件边界,以实现对视频内容自然分割的目的。该数据集的构建主要涉及视频选择、标注者培训和标注质量保证等环节。首先,从Kinetics-400训练集中随机选择了20,000个视频作为训练集,再选择另外20,000个视频作为测试集,并使用Kinetics-400验证集中的所有20,000个视频作为验证集。为了确保标注质量,对标注者进行了详细的培训和考核,并设计了多轮标注机制以捕捉人类感知的差异。最后,对原始标注结果进行了后处理,包括去除模糊度高的视频、合并非常接近的边界等步骤,以构建最终的Kinetics-GEBD基准。
特点
Kinetics-GEBD数据集具有以下特点:首先,数据集规模庞大,包含超过177万个时间边界,是目前已知最大的事件分割数据集之一。其次,数据集涵盖了广泛的视频领域,不仅限于体育或厨房场景,而是包含野外环境中的通用事件。第三,数据集采用开放词汇表,不依赖于预定义的事件分类,从而能够捕捉到更广泛的事件边界。第四,数据集包含多种边界原因,如动作变化、主体变化、环境变化等,以更全面地反映事件分割的复杂性。最后,数据集包含每个视频的平均5个标注,以捕捉人类感知的差异并确保标注的多样性。
使用方法
使用Kinetics-GEBD数据集的方法主要包括监督学习和无监督学习两种。监督学习方法需要使用标注数据进行模型训练,例如使用Pairwise boundary Classifier (PC)模型,通过特征提取和分类来预测事件边界。无监督学习方法则不需要标注数据,例如使用PredictAbility (PA)方法,通过计算预测性分数来定位事件边界。在实验中,对多种监督学习和无监督学习方法进行了评估,结果表明,基于预测性的PA方法在TAPOS数据集和Kinetics-GEBD数据集上都取得了较好的性能。此外,还展示了Kinetics-GEBD在视频分类和视频摘要等下游应用中的价值,例如通过事件边界来选择关键帧进行视频摘要,以提高视频摘要的准确性。
背景与挑战
背景概述
随着计算机视觉技术的不断发展,视频内容理解已成为研究热点。传统的视频分割和动作检测方法主要集中在定位预定义的动作类别上,这使得它们无法扩展到通用的视频场景。然而,人类的认知科学研究表明,人类在感知视频时,会自然而然地将视频分割成有意义的时序片段,这种分割无需预定义的事件类别。为了使机器具备这种能力,Facebook AI和新加坡国立大学的研究人员提出了一个新的任务——通用事件边界检测(GEBD),并构建了Kinetics-GEBD数据集。该数据集的创建旨在解决视频分割和动作检测中存在的问题,为理解整个视频提供重要的一步。
当前挑战
Kinetics-GEBD数据集面临的挑战包括:1) 所解决的领域问题是通用事件边界检测,需要定位人类自然感知的事件边界,这比传统的动作检测和分割任务更具挑战性;2) 构建过程中遇到的挑战包括如何有效地标注无类别的事件边界,以及如何确保不同标注者之间的一致性和多样性。此外,该数据集的标注和模型训练也面临着挑战,因为通用事件边界没有预定义的类别,需要采用新的标注原则和方法来处理。
常用场景
经典使用场景
Kinetics-GEBD数据集主要应用于事件边界检测,即在没有预定义事件类别的情况下,将整个视频分割成有意义的片段。该数据集在视频编辑、摘要、关键帧选择、亮点检测等应用中具有重要作用。通过将视频分割成自然、有意义的单元,可以排除单元中间的不自然剪辑,从而提高视频处理的效率和效果。
解决学术问题
Kinetics-GEBD数据集解决了传统视频分割和动作检测的局限性,即只能定位预定义的动作类别,无法扩展到通用视频。该数据集通过引入通用事件边界检测(GEBD)任务,旨在定位人类自然感知的事件边界,从而将视频分割成更小的时间片段,从而更好地理解视频的整体内容。此外,该数据集还提供了新的标注指南和评估协议,为事件边界检测的研究提供了新的思路和方法。
衍生相关工作
Kinetics-GEBD数据集衍生了多个相关的经典工作,例如事件分割、动作检测、场景变化检测等。这些工作基于Kinetics-GEBD数据集,进一步研究了事件边界检测的算法和模型,并提出了新的评估指标和评估协议。此外,该数据集还促进了无监督或半监督事件边界检测方法的研究,从而提高了事件边界检测的准确性和鲁棒性。
以上内容由遇见数据集搜集并总结生成



