OVR
收藏arXiv2024-07-24 更新2024-07-26 收录
下载链接:
https://sites.google.com/view/openvocabreps/
下载链接
链接失效反馈官方服务:
资源简介:
OVR数据集由谷歌Deepmind开发,是一个用于视频中时间重复计数的大型开放词汇数据集。该数据集包含72,552个视频,每个视频都有重复次数、开始和结束时间的注释,以及自由形式的描述。数据来源于Kinetics和Ego4D,涵盖了广泛的行动和活动。数据集的创建过程包括从现有数据集中筛选视频片段,并进行大规模的众包注释工作。OVR数据集的应用领域广泛,旨在解决视频中重复行为的识别和计数问题,特别是在需要详细理解和分析重复行为的场景中。
The OVR dataset, developed by Google DeepMind, is a large-scale open-vocabulary dataset for temporal repetition counting in videos. It contains 72,552 videos, each annotated with repetition counts, start and end timestamps, as well as free-form descriptions. The dataset is sourced from Kinetics and Ego4D, covering a wide range of actions and activities. The creation of the OVR dataset involves filtering video clips from existing datasets and conducting large-scale crowdsourced annotation work. The OVR dataset has a wide range of application scenarios, aiming to address the problem of recognition and counting of repetitive behaviors in videos, especially in scenarios that require detailed understanding and analysis of such behaviors.
提供机构:
谷歌Deepmind
创建时间:
2024-07-24
搜集汇总
数据集介绍

构建方式
OVR数据集的构建方式首先从现有的视频数据集中获取候选视频片段,这些视频数据集包括Ego4D和Kinetics。然后,通过RepNet模型和语言模型(LLM)分别从Kinetics和Ego4D中筛选出可能包含重复动作的视频片段。在筛选出的候选视频中,通过人工标注的方式确认视频片段是否包含重复动作,并详细标注重复动作的次数、开始和结束时间以及自由文本描述。最后,对标注结果进行质量控制,确保标注的一致性,并创建训练集和测试集。
特点
OVR数据集的特点在于其规模庞大,包含超过72K个视频的标注信息,涵盖了广泛的动作和活动。此外,OVR数据集的标注采用开放式词汇文本描述,使得模型能够进行文本条件下的重复计数,从而提高了模型的泛化能力和应用范围。OVR数据集还包含了来自Ego4D和Kinetics的视图,涵盖了第一人称和第三人称视角,进一步增强了数据集的多样性。
使用方法
OVR数据集的使用方法包括训练和评估重复计数模型。首先,将数据集划分为训练集和测试集。然后,使用训练集对模型进行训练,并通过测试集对模型进行评估。在训练过程中,模型可以采用文本条件或无文本条件的方式进行训练。在评估过程中,可以使用MAE、OBOE、OBZE、RMSE和IOU等指标来评估模型的计数和定位性能。
背景与挑战
背景概述
OVR数据集,全称为Open-Vocabulary Repetitions,是一个为视频中的时间重复计数任务而创建的开放词汇数据集。该数据集由Debidatta Dwibedi、Yusuf Aytar、Jonathan Tompson和Andrew Zisserman等研究人员于Google DeepMind开发,并于2024年7月首次发布。OVR数据集包含超过72K个视频的注释,每个注释详细说明了重复次数、重复的起始和结束时间,以及对重复内容的自由文本描述。这些注释涵盖了从Kinetics和Ego4D获取的视频,从而覆盖了外视角和自我视角,并具有大量多样的动作和活动。OVR数据集的规模几乎是之前视频重复数据集的十倍,为算法训练和性能评估提供了更为广泛的计数能力。此外,该数据集还提出了一个基于Transformer的计数模型OVRCounter,能够定位并计数长达320帧的视频中的重复。该模型在OVR数据集上进行了训练和评估,其性能通过与先前重复计数模型的比较进行了评估。
当前挑战
OVR数据集和相关研究面临的挑战包括:1) 所解决的领域问题是开放词汇时间重复计数,这要求模型能够识别和计数视频中的重复动作,而不受特定类别的限制。2) 构建过程中遇到的挑战包括确保注释的准确性和一致性,尤其是在处理自我视角视频时,由于视角的限制,识别重复动作可能更具挑战性。此外,由于数据集的规模和多样性,训练能够准确计数和定位重复动作的模型也面临着计算资源的挑战。
常用场景
经典使用场景
OVR数据集的诞生是为了满足对视频时间重复计数的需求,该数据集提供了超过72K个视频的注释,每个注释都详细说明了重复次数、重复的起始和结束时间,以及重复内容的自由文本描述。这些注释涵盖了从Kinetics和Ego4D中获取的视频,涵盖了Exo和Ego观看条件,以及各种动作和活动。OVR数据集的规模几乎比之前的视频重复数据集大一个数量级,使得研究人员能够训练算法,并在更通用的计数能力上进行性能评估。
解决学术问题
OVR数据集解决了现有视频重复计数数据集在规模和多样性方面的不足。之前的数据集规模较小,多样性有限,无法满足开放词汇重复计数的需求。OVR数据集的引入不仅提升了现有重复计数模型的性能,还使得训练更大规模的模型成为可能,从而带来更好的性能。此外,OVR数据集的开放词汇特性使其能够使用不受限制的语言研究特定类型的重复,并为文本条件计数模型的发展提供了新的可能性。
衍生相关工作
OVR数据集的引入为视频时间重复计数领域的研究提供了新的方向。基于OVR数据集,研究人员可以开发更先进的算法和模型,以更好地理解和分析视频中的重复行为。此外,OVR数据集的开放词汇特性为文本条件计数模型的发展提供了新的可能性,这些模型可以用于各种应用场景,如视频监控、智能交通系统等。
以上内容由遇见数据集搜集并总结生成



