EgoClip
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/showlab/EgoVLP
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为EgoClip,是一个包含3.8百万个从Ego4D精心挑选的第一人称视角视频文本对的预训练数据集,覆盖了人类日常活动的广泛多样性。EgoClip包含了2.9千小时的视频,以及3.85百万个叙述,涵盖了来自129个不同场景的2927小时视频内容。其规模达到了3.8百万个视频文本对,旨在进行视频与语言的预训练任务。
This dataset, named EgoClip, is a pre-training dataset comprising 3.8 million carefully curated first-person video-text pairs selected from Ego4D, covering a broad spectrum of human daily activities. EgoClip encompasses 2.9 thousand hours of video content and 3.85 million narrative descriptions, with the total video content spanning 2927 hours across 129 distinct scenarios. Boasting a scale of 3.8 million video-text pairs, EgoClip is specifically developed for video-and-language pre-training tasks.
提供机构:
Ego4D
搜集汇总
数据集介绍

背景与挑战
背景概述
EgoClip是一个用于第一人称视频语言预训练的数据集,包含约384万个视频片段,每个片段配有时间戳和文本描述,并附带动词和名词标签以支持EgoNCE预训练目标。该数据集是EgoVLP项目的一部分,旨在提升模型在多个第一人称视频下游任务(如检索和问答)上的性能。
以上内容由遇见数据集搜集并总结生成



