epic_kitchen_100_resume

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/sjmathy/epic_kitchen_100_resume

下载链接

链接失效反馈

官方服务：

资源简介：

EK100 Action Anticipation Package是一个用于动作预测任务的数据集，包含训练、验证和测试所需的V-JEPA 2.1全标记上下文特征、Pi3未来动作轨迹以及动作预测清单。数据集布局按照原始EK100提取根目录组织，特征和轨迹文件以.pt格式存储。时间约定中，动作预测上下文为动作前的剪辑片段，上下文间隔为[t_i - 2s, t_i - 1s]，预测间隔为1s，目标动作间隔为[action_start_sec, action_end_sec]。全标记特征文件包含形状为(4608, 1664)的张量，未来Pi3轨迹文件包含形状为(16, 6)的张量。数据集规模包括66,178个训练样本、9,595个验证样本和13,061个测试样本。已知缺失部分验证文件，原因包括帧损坏或解码失败。数据集还提供了本地预测器的基准性能指标，包括动词、名词和动作的Recall@5分数。

创建时间：

2026-05-01

原始信息汇总

EK100 Action Anticipation Package 数据集概述

数据集简介

该数据集旨在支持动作预测（Action Anticipation）任务，包含从 EPIC-KITCHENS-100（EK100）数据集提取的特征和轨迹数据。数据集中包含了 V-JEPA 2.1 全令牌上下文特征、Pi3 未来动作轨迹以及相关的训练/验证/测试清单。

数据集内容

包含项目

V-JEPA 2.1 全令牌上下文特征：用于训练集、验证集和测试集
Pi3 未来动作轨迹：用于训练集、验证集和测试集
动作预测清单：训练集、验证集和测试集
全令牌提取分片清单：用于重建分片成员关系

不包含项目

均值池化上下文特征
来自 [t-2, t-1] 的上下文 Pi3 轨迹
原始视频

数据结构布局

解压后，文件路径相对于原始 EK100 提取根目录：

features/train/full_tokens/.pt features/val/full_tokens/.pt features/test/full_tokens/*.pt

pi3_future_action/atomic_train/pi3_trajectory_controls_atomic/m16/.pt pi3_future_action/atomic_dev/pi3_trajectory_controls_atomic/m16/.pt pi3_future_action/test/pi3_trajectory_controls_atomic/m16/*.pt

planning/atomic_train/manifests/segment_manifest.csv planning/atomic_dev/manifests/segment_manifest.csv planning/test/manifests/segment_manifest.csv

manifests/fulltoken_shards/{train,val,test}/vjepa_shard_*.csv

时间约定

对于每个 EK100 片段 i，动作预测的上下文为动作开始前的片段：

上下文区间：[t_i - 2s, t_i - 1s]
预测间隙：1s
目标动作区间：[action_start_sec, action_end_sec]

V-JEPA 全令牌特征从与均值池化缓存相同的上下文区间提取。未来 Pi3 轨迹从目标动作片段中采样，使用与当前预测器实验相同的 16 节点中心/自有区间风格。

张量格式

全令牌特征 .pt 文件：字典格式，主要张量为 tokens: (4608, 1664)
未来 Pi3 轨迹 .pt 文件：字典格式，主要轨迹张量为 u_middle_oracle: (16, 6)
轨迹文件还存储查询时间戳、请求的帧索引、重力锚元数据、视频元数据和 Pi3 来源信息

数据规模统计

数据集	清单行数	全令牌文件数	未来 Pi3 文件数
训练集	66,178	66,178	66,178
验证集	9,595	9,587	9,593
测试集	13,061	13,061	13,061

已知缺失文件

全令牌：验证集缺失 8 个片段
未来 Pi3：验证集缺失 P30_08_154 和 P30_08_29
缺失原因：P30_08.MP4 中存在损坏/解码失败的帧

当前本地预测器结果

基于 EK100 验证集的均值类别 Recall@5 指标：

预测器类型	动词（Verb）	名词（Noun）	动作（Action）	动名平均（VN avg）
无轨迹预测器	17.74	17.51	5.37	17.63
Oracle 未来 Pi3 预测器	19.57	19.26	6.27	19.42

两个预测器均从原子因果文本桥接检查点初始化，并使用其原始原子 CamFormer 轨迹编码器。独立训练的 EK100 CamFormer 对齐诊断检查点未用于上述两个结果。

搜集汇总

数据集介绍

构建方式

在动作预期领域，EPIC-KITCHENS-100数据集承载着丰富的日常厨房活动视频。本数据集以此为基础，精心构建了一个面向动作预期任务的高阶特征与轨迹包。其核心构造围绕V-JEPA 2.1模型提取的全标记上下文特征（维度4608×1664）与Pi3未来动作轨迹（16个控制点，每点6维）展开，分别覆盖训练、验证与测试三个子集。数据组织遵循严格的时间约定：上下文区间为动作开始前2至1秒，并与目标动作区间之间保留1秒预期间隔。全标记特征与轨迹文件以PyTorch张量字典形式存储，并辅以分段清单与分片清单，便于用户高效检索与还原数据归属。

特点

该数据集最显著的特点在于其模块化设计与高阶抽象能力。它不包含原始视频或平均池化特征，而是直接提供经过V-JEPA 2.1模型提炼的密集标记特征，以及基于原子级CamFormer编码器生成的Pi3未来轨迹，从而极大降低了下游任务的特征工程负担。数据规模宏大，训练集含66,178个分段，验证集与测试集分别包含9,595和13,061个分段，但验证集中存在少量缺失条目（全标记特征缺8段，轨迹缺2段），来源于原始视频片段解码异常。这种完整性瑕疵反而为鲁棒性评估提供了天然挑战。

使用方法

用户可借助本数据集直接进行动作预期模型的训练与评估。使用路径需将提取后的tar文件解压至EK100根目录下，通过读取各子集的segment_manifest.csv与vjepa_shard_*.csv清单文件定位对应特征与轨迹。典型应用包括：以全标记特征（tokens）作为编码器输入，结合Pi3未来轨迹与上下文Pi3轨迹共同驱动预测头，输出目标动作的动词、名词及组合动作类别。当前最新验证结果展示了无需轨迹预测器与Oracle未来轨迹预测器的性能基线，分别为平均类别Recall@5指标下的动作5.37%与6.27%，用户可在此基础上复现或改进模型架构。

背景与挑战

背景概述

EPIC-KITCHENS-100 Action Anticipation（EK100）数据集由多位研究者联合构建，旨在推动视频理解领域中动作预测（action anticipation）这一前沿课题的发展。该数据集源于EPIC-KITCHENS系列，聚焦于第一人称视角下的日常厨房活动，涵盖了66,178个训练片段、9,595个验证片段和13,061个测试片段。其核心研究问题在于，如何利用动作发生前的上下文信息（即[t-2s, t-1s]区间）预测未来动作的类别与轨迹，从而突破传统视频理解仅关注已发生事件的局限。EK100提供了丰富的多模态特征，包括V-JEPA 2.1全令牌上下文特征和Pi3未来动作轨迹，为神经预测模型的设计与评估提供了高标准的基准平台。自发布以来，该数据集已成为动作预测领域的重要参考，推动了从视频表征学习到时序推理技术的广泛进展。

当前挑战

EK100数据集所解决的领域挑战在于动作预测任务固有的不确定性：不同于动作识别，预测需在1秒的间隔窗口后推断未来动作的动词和名词，这要求模型捕捉细粒度时序依赖与环境线索。此外，数据集构建过程中面临多重困难：首先，原始视频中部分帧（如P30_08.MP4）因损坏或解码失败导致未来轨迹缺失，验证集与测试集分别存在8段和2段数据断层；其次，全令牌特征的提取依赖于特定上下文区间，而跨视频的时序对齐与片段划分需精确到秒级，增加了数据标注的复杂度。当前基准测试显示，即使采用Oracle未来轨迹，平均Recall@5也仅达19.42%，凸显了动作预测任务的长尾分布与模态耦合挑战。

常用场景

经典使用场景

在视频理解与机器人交互领域，动作预告是一项极具挑战性的任务，要求模型仅凭动作发生前的上下文线索，预测即将展开的行为。EPIC-KITCHENS-100动作预告数据集正是为此而生，它基于第一人称视角的厨房场景视频，提供了精心对齐的时间戳与动作标签。最经典的用法是将其作为基准测试平台，用于训练和评估各种动作预告模型，尤其是那些需要融合视觉特征与轨迹信息的架构。通过该数据集，研究者能够系统性地探究在1秒预告间隙下，模型如何从过去2秒的上下文片段中，精准推断未来动作的动词、名词及组合动作类别，从而推动时间序列预测与视频语义理解的前沿发展。

衍生相关工作

基于EPIC-KITCHENS-100数据集，学术界衍生出了一系列里程碑式的经典工作。其中，时序变换器架构（如TimeSformer与VideoMAE）被广泛用于提取上下文时空特征，为预告任务奠定了骨干网络基础。轨迹条件模型（如轨迹引导的CamFormer）开创性地将未来原子动作的稀疏轨迹作为一种弱监督先验引入编码器，显著提升了长时序列的预测表现。同时，因果推断与反事实推理方法，如反事实预告网络，探索了通过模拟未观察到的未来事件来增强模型鲁棒性的新范式。多模态对齐策略（如视频-文本对比学习）也被用于将视觉特征与语言标签进行语义衔接，从而提升名词预测的准确性。这些工作不仅丰富了动作预告的理论体系，也带动了相邻领域如视频生成和人类行为理解的技术进步。

数据集最近研究