EgoVid-5M
收藏EgoVid 数据集概述
数据集描述
EgoVid 是一个精心策划的高质量动作视频数据集,专门用于第一人称视角视频生成。它包含 500 万个第一人称视角视频片段,并包含详细的动作注释,如细粒度的运动控制和高层次的文本描述。此外,它采用了强大的数据清洗策略,以确保帧一致性、动作连贯性和在第一人称视角下的运动平滑性。
数据注释和清洗
为了模拟从第一人称视角的动作视频,我们对每个视频片段构建了详细和准确的动作注释,涵盖低层次的运动控制(例如,第一人称视角的平移和旋转)以及高层次的文本描述。此外,考虑到数据质量显著影响生成模型的训练效果,本研究基于现有的清洗策略,提出了一种专门针对第一人称视角场景的清洗流程。
数据准备
源数据下载
请参考 Ego4D 官方数据集 下载源视频。我们只需要源视频,因此可以跳过其他元数据,下载时可以指定视频分辨率(1080P: 7.1TB,540P: 3.5TB)。值得注意的是,本仓库仅包含动作注释(运动和文本)和清洗元数据。
数据结构
源 Ego4D 视频
Ego4D ├── v1/ ├── v2/ │ ├── video/ │ │ ├── 0a02a1ed-a327-4753-b270-e95298984b96.mp4 │ │ ├── ... │ ├── video_540ss/ (可选) │ │ ├── 0a02a1ed-a327-4753-b270-e95298984b96.mp4 │ │ ├── ...
CSV 文件信息
CSV 文件中的关键列包括:
video_id: 视频ID_起始帧_结束帧,其中 VideoID 是源视频的文件名,StartFrame 和 EndFrame 是视频片段的起始和结束帧索引。frame_num: 帧数fps: 每秒帧数noun_cls: 动作描述的名词类别verb_cls: 动作描述的动词类别llava_cap: 视频片段的详细字幕(由 LLaVA-Video 注释)name: 注释的高层次文本动作描述(由 Qwen 总结)flow_mean: 视频片段的平均光流幅度flow_0_4: 光流幅度在 [0, 4] 范围内的比例flow_4_8: 光流幅度在 [4, 8] 范围内的比例flow_8_12: 光流幅度在 [8, 12] 范围内的比例flow_12_16: 光流幅度在 [12, 16] 范围内的比例flow_16_: 光流幅度大于 16 的比例ti_sim: 4 帧与动作描述之间的 CLIP 相似度(用逗号分隔)ii_sim: 第一帧与其他 3 帧之间的 CLIP 相似度(用逗号分隔)dover_score: 视频片段的 DOVER 分数egovideo_score: 视频片段和动作描述的 EgoVid 分数
特殊列
在 egovid-kinematic.csv 和 egovid-val.csv 中,存在以下特殊列:
gyro_x: IMU 陀螺仪数据,x 轴gyro_y: IMU 陀螺仪数据,y 轴gyro_z: IMU 陀螺仪数据,z 轴accl_x: IMU 加速度计数据,x 轴accl_y: IMU 加速度计数据,y 轴accl_z: IMU 加速度计数据,z 轴
姿态文件
poses.zip 包含第一人称视角摄像机的运动姿态。
unzip poses.zip
文件结构如下:
poses ├── 0a47c74a-dad9-42d5-b937-0f375490f034_0_162/ │ ├── cost.txt (ParticleSfM 姿态与 IMU 姿态匹配的成本,越低越好) │ ├── intri.npy (基于 540 分辨率计算的相机内参,形状为 [3, 3]) │ ├── sfm_pose.npy (由 ParticleSfM 计算的相机外参,已缩放,形状为 [120(帧数), 4, 4]) │ ├── imu_pose.npy (由 IMU 计算的相机外参,已转换到相机坐标系) │ ├── fused_pose.npy (由卡尔曼滤波器计算的相机外参,推荐使用) ├── 0a47c74a-dad9-42d5-b937-0f375490f034_2730_2892/ │ ├── ...




