epic_kitchen_100_resume
收藏EK100 Action Anticipation Package 数据集概述
数据集简介
该数据集旨在支持动作预测(Action Anticipation)任务,包含从 EPIC-KITCHENS-100(EK100)数据集提取的特征和轨迹数据。数据集中包含了 V-JEPA 2.1 全令牌上下文特征、Pi3 未来动作轨迹以及相关的训练/验证/测试清单。
数据集内容
包含项目
- V-JEPA 2.1 全令牌上下文特征:用于训练集、验证集和测试集
- Pi3 未来动作轨迹:用于训练集、验证集和测试集
- 动作预测清单:训练集、验证集和测试集
- 全令牌提取分片清单:用于重建分片成员关系
不包含项目
- 均值池化上下文特征
- 来自
[t-2, t-1]的上下文 Pi3 轨迹 - 原始视频
数据结构布局
解压后,文件路径相对于原始 EK100 提取根目录:
features/train/full_tokens/.pt features/val/full_tokens/.pt features/test/full_tokens/*.pt
pi3_future_action/atomic_train/pi3_trajectory_controls_atomic/m16/.pt pi3_future_action/atomic_dev/pi3_trajectory_controls_atomic/m16/.pt pi3_future_action/test/pi3_trajectory_controls_atomic/m16/*.pt
planning/atomic_train/manifests/segment_manifest.csv planning/atomic_dev/manifests/segment_manifest.csv planning/test/manifests/segment_manifest.csv
manifests/fulltoken_shards/{train,val,test}/vjepa_shard_*.csv
时间约定
对于每个 EK100 片段 i,动作预测的上下文为动作开始前的片段:
- 上下文区间:
[t_i - 2s, t_i - 1s] - 预测间隙:
1s - 目标动作区间:
[action_start_sec, action_end_sec]
V-JEPA 全令牌特征从与均值池化缓存相同的上下文区间提取。未来 Pi3 轨迹从目标动作片段中采样,使用与当前预测器实验相同的 16 节点中心/自有区间风格。
张量格式
- 全令牌特征
.pt文件:字典格式,主要张量为tokens: (4608, 1664) - 未来 Pi3 轨迹
.pt文件:字典格式,主要轨迹张量为u_middle_oracle: (16, 6) - 轨迹文件还存储查询时间戳、请求的帧索引、重力锚元数据、视频元数据和 Pi3 来源信息
数据规模统计
| 数据集 | 清单行数 | 全令牌文件数 | 未来 Pi3 文件数 |
|---|---|---|---|
| 训练集 | 66,178 | 66,178 | 66,178 |
| 验证集 | 9,595 | 9,587 | 9,593 |
| 测试集 | 13,061 | 13,061 | 13,061 |
已知缺失文件
- 全令牌:验证集缺失 8 个片段
- 未来 Pi3:验证集缺失
P30_08_154和P30_08_29 - 缺失原因:
P30_08.MP4中存在损坏/解码失败的帧
当前本地预测器结果
基于 EK100 验证集的均值类别 Recall@5 指标:
| 预测器类型 | 动词(Verb) | 名词(Noun) | 动作(Action) | 动名平均(VN avg) |
|---|---|---|---|---|
| 无轨迹预测器 | 17.74 | 17.51 | 5.37 | 17.63 |
| Oracle 未来 Pi3 预测器 | 19.57 | 19.26 | 6.27 | 19.42 |
两个预测器均从原子因果文本桥接检查点初始化,并使用其原始原子 CamFormer 轨迹编码器。独立训练的 EK100 CamFormer 对齐诊断检查点未用于上述两个结果。




