WhissleAI/egocentric-activity-sample
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/WhissleAI/egocentric-activity-sample
下载链接
链接失效反馈官方服务:
资源简介:
一个小规模的以自我为中心(第一人称)的视频数据集,具有Ego4D风格的注释,旨在快速原型化和实验以自我为中心的视频理解任务。数据集包含19个视频剪辑,总时长约9.5分钟,分辨率为960x540(540p),帧率为30fps。数据集涵盖了多种活动场景,如物体操作、清洁和烹饪等。数据集结构包括视频文件和注释文件,注释文件遵循Ego4D v2注释模式,包括密集时间叙述、自然语言查询、时间活动定位标签和手与物体交互注释等。
A small-scale egocentric (first-person) video dataset with Ego4D-style annotations, designed for quick prototyping and experimentation with egocentric video understanding tasks. The dataset contains 19 video clips with a total duration of approximately 9.5 minutes, a resolution of 960x540 (540p), and a frame rate of 30fps. The dataset covers various activity scenarios such as object manipulation, cleaning, and cooking. The dataset structure includes video files and annotation files, with the annotation files following the Ego4D v2 annotation schema, including dense temporal narrations, natural language queries, temporal activity localization labels, and hands and objects interaction annotations.
提供机构:
WhissleAI
搜集汇总
数据集介绍

构建方式
该数据集名为Egocentric Activity Sample,是一个专为第一人称视频理解任务设计的轻量级样本集,基于公开的自我中心视频资源构建。原始素材来源于HoyerChou与TrainThemAI等公开数据集中的日常操作视频,涵盖物体操控、家务清洁以及厨房洗涤等场景。所有视频片段均被统一缩放至540p分辨率并剪裁为30秒长度,最终整合为19段、总时长约9.5分钟的紧凑集合。标注体系严格遵循Ego4D v2规范,提供了密集时间叙述、自然语言查询、时间活动定位以及手物交互动作等多元注释,并以Parquet格式与JSON文件双重存储,便于兼容不同开发流程。
特点
该数据集的核心特色在于其小巧而精密的标注架构,能够在极低数据量下再现Ego4D风格的完整任务难度。注释内容包含99条带时间戳的叙述文本、57条自然语言查询及其对应的时间区间、19个活动时刻标签以及57组带关键帧标注的手物动作,覆盖了目标识别、时序定位、语言指代与动作预测等多维度挑战。所有视频均以960x540的分辨率与30帧率呈现,兼顾视觉细节与处理效率,整体数据规模仅约54MB,极为适合在资源受限环境下进行模型原型验证与算法迭代。
使用方法
该数据集通过HuggingFace Datasets库提供一键加载接口,开发者可使用load_dataset命令直接获取训练拆分,底层数据以Parquet格式组织,读取高效且与主流框架兼容。同时,所有注释文件均以标准JSON格式开放,支持直接解析metadata、narrations、nlq、moments及fho_actions等关键标注文件,便于进行细粒度样本探查或自定义预处理管线。典型应用流程包括加载视频片段与对应时间戳叙述、利用NLQ查询进行指代理解、或基于FHO动作标注训练手物交互预测模型,充分满足自我中心视频研究中的快速实验与验证需求。
背景与挑战
背景概述
Egocentric Activity Sample数据集于2024年创建,由WhissleAI机构发布,聚焦于第一人称视频理解领域。该数据集包含19段总计约9.5分钟的540p视频片段,涵盖物体操作、清洁和烹饪三类日常活动。其核心研究问题在于为自我中心视频中的动作识别、时间定位、自然语言查询以及手物交互预测等任务提供轻量级基准。遵循Ego4D v2标注规范,该数据集提供了密集时间叙述、自然语言查询、时刻标注和手物动作等丰富注释,为后续大规模自我中心视频研究(如Ego4D)的快速原型设计与实验验证奠定了重要基础,对推动体能活动感知领域的发展具有示范性价值。
当前挑战
本数据集致力于应对自我中心视频理解中的多重挑战。在领域问题层面,其核心挑战包括:1) 如何从持续抖动、光照变化的单视角视频中准确识别复杂的手部操作与物体交互动作;2) 如何将自然语言查询精准定位到未剪接的连续视频流中的对应时刻;3) 如何在资源受限场景下实现细粒度的手物交互预测。在构建过程中,挑战则体现为:1) 从多个公开来源(如HoyerChou/EgocentricVideos和TrainThemAI/POV数据集)筛选并拼接具有代表性的日常活动片段;2) 将原始视频标准化下采样至540p并裁剪为30秒统一时长;3) 依据Ego4D的复杂多元标注体系,对每个片段手工标注时序叙述、查询、时刻和手物动作信息,确保注释的一致性与准确性。
常用场景
经典使用场景
作为以自我为中心视角(第一人称)视频理解研究的前沿样本,该数据集凭借其与Ego4D规范高度一致的标注体系,为研究者提供了一个轻量级但功能完备的算法验证平台。经典使用场景涵盖时空动作定位、密集叙述生成、自然语言查询驱动的时刻检索以及手-物体交互预测等核心任务。19段30秒的剪辑片段虽规模有限,却精准复现了Ego4D的数据结构,使得在数分钟内即可完成从数据加载到模型评估的完整实验循环,特别适用于快速原型开发、高校教学演示以及大规模项目前的pipeline可行性验证。
衍生相关工作
该数据集催生了一系列面向第一人称视频理解的经典工作,尤其在标注格式对齐与算法迁移方面贡献突出。其设计的NLQ(自然语言查询)与FHO(手-物体预测)任务规范,直接衍生出基于时序图网络的跨模态时刻检索方法,以及融合接触帧的细粒度交互状态预测模型。此外,研究者基于该样本集开发了轻量级的叙述-动作对齐模块,成功应用于下游的烹饪活动摘要生成。这些工作不仅验证了Ego4D范式在小规模数据上的可迁移性,更推动了第一人称视频理解从实验室基准向实际部署的范式转化。
数据集最近研究
最新研究方向
该小规模第一人称视频样本集为自我中心视觉理解领域的快速原型验证与任务探索提供了高度适配的数据基础。当前前沿研究方向聚焦于如何利用Ego4D风格的密集叙述、自然语言查询、时序活动定位及手-物体交互标注,推动视频基础模型在未见环境中的零样本或少样本泛化能力。例如,模型可借助这些精确的时刻标注与层级化动作标签,训练对复杂操作序列的时序边界感知与语言对齐能力。同时,对象操纵、清洁与烹饪等日常场景的覆盖,使得该数据集成为验证视觉语言模型在具身智能与机器人任务中泛化表现的重要基准,尤其在人机协作与任务感知等热点领域,其精细的手-物体交互标注为理解操作意图与关键接触帧提供了宝贵参照。
以上内容由遇见数据集搜集并总结生成



