EgoVid-5M

github2024-11-14 更新2024-11-15 收录

下载链接：

https://github.com/JeffWang987/EgoVid

下载链接

链接失效反馈

官方服务：

资源简介：

EgoVid-5M是一个精心策划的高质量动作视频数据集，专门为第一人称视角视频生成设计。它包含500万个第一人称视角视频片段，并包含详细的动作注释，如细粒度的运动控制和高层次的文本描述。此外，它还采用了强大的数据清理策略，以确保帧一致性、动作连贯性和在第一人称视角条件下的运动平滑性。

EgoVid-5M is a curated high-quality action video dataset specifically designed for first-person view video generation. It contains 5 million first-person view video clips, along with detailed action annotations including fine-grained motion control and high-level textual descriptions. In addition, it adopts robust data cleaning strategies to ensure frame consistency, action coherence, and motion smoothness under first-person view conditions.

创建时间：

2024-11-14

原始信息汇总

EgoVid 数据集概述

数据集描述

EgoVid 是一个精心策划的高质量动作视频数据集，专门用于第一人称视角视频生成。它包含 500 万个第一人称视角视频片段，并包含详细的动作注释，如细粒度的运动控制和高层次的文本描述。此外，它采用了强大的数据清洗策略，以确保帧一致性、动作连贯性和在第一人称视角下的运动平滑性。

数据注释和清洗

为了模拟从第一人称视角的动作视频，我们对每个视频片段构建了详细和准确的动作注释，涵盖低层次的运动控制（例如，第一人称视角的平移和旋转）以及高层次的文本描述。此外，考虑到数据质量显著影响生成模型的训练效果，本研究基于现有的清洗策略，提出了一种专门针对第一人称视角场景的清洗流程。

数据准备

源数据下载

请参考 Ego4D 官方数据集下载源视频。我们只需要源视频，因此可以跳过其他元数据，下载时可以指定视频分辨率（1080P: 7.1TB，540P: 3.5TB）。值得注意的是，本仓库仅包含动作注释（运动和文本）和清洗元数据。

数据结构

源 Ego4D 视频

Ego4D ├── v1/ ├── v2/ │ ├── video/ │ │ ├── 0a02a1ed-a327-4753-b270-e95298984b96.mp4 │ │ ├── ... │ ├── video_540ss/ (可选) │ │ ├── 0a02a1ed-a327-4753-b270-e95298984b96.mp4 │ │ ├── ...

CSV 文件信息

CSV 文件中的关键列包括：

video_id: 视频ID_起始帧_结束帧，其中 VideoID 是源视频的文件名，StartFrame 和 EndFrame 是视频片段的起始和结束帧索引。
frame_num: 帧数
fps: 每秒帧数
noun_cls: 动作描述的名词类别
verb_cls: 动作描述的动词类别
llava_cap: 视频片段的详细字幕（由 LLaVA-Video 注释）
name: 注释的高层次文本动作描述（由 Qwen 总结）
flow_mean: 视频片段的平均光流幅度
flow_0_4: 光流幅度在 [0, 4] 范围内的比例
flow_4_8: 光流幅度在 [4, 8] 范围内的比例
flow_8_12: 光流幅度在 [8, 12] 范围内的比例
flow_12_16: 光流幅度在 [12, 16] 范围内的比例
flow_16_: 光流幅度大于 16 的比例
ti_sim: 4 帧与动作描述之间的 CLIP 相似度（用逗号分隔）
ii_sim: 第一帧与其他 3 帧之间的 CLIP 相似度（用逗号分隔）
dover_score: 视频片段的 DOVER 分数
egovideo_score: 视频片段和动作描述的 EgoVid 分数

特殊列

在 egovid-kinematic.csv 和 egovid-val.csv 中，存在以下特殊列：

gyro_x: IMU 陀螺仪数据，x 轴
gyro_y: IMU 陀螺仪数据，y 轴
gyro_z: IMU 陀螺仪数据，z 轴
accl_x: IMU 加速度计数据，x 轴
accl_y: IMU 加速度计数据，y 轴
accl_z: IMU 加速度计数据，z 轴

姿态文件

poses.zip 包含第一人称视角摄像机的运动姿态。

unzip poses.zip

文件结构如下：

poses ├── 0a47c74a-dad9-42d5-b937-0f375490f034_0_162/ │ ├── cost.txt (ParticleSfM 姿态与 IMU 姿态匹配的成本，越低越好) │ ├── intri.npy (基于 540 分辨率计算的相机内参，形状为 [3, 3]) │ ├── sfm_pose.npy (由 ParticleSfM 计算的相机外参，已缩放，形状为 [120(帧数), 4, 4]) │ ├── imu_pose.npy (由 IMU 计算的相机外参，已转换到相机坐标系) │ ├── fused_pose.npy (由卡尔曼滤波器计算的相机外参，推荐使用) ├── 0a47c74a-dad9-42d5-b937-0f375490f034_2730_2892/ │ ├── ...

搜集汇总

数据集介绍

构建方式

EgoVid-5M数据集的构建过程极为精细，旨在生成高质量的以自我为中心的视频。该数据集包含了500万个以自我为中心的视频片段，并附有详细的动作注释，包括细粒度的运动控制和高层次的文本描述。为了确保视频帧的一致性、动作的连贯性和运动平滑性，数据集采用了严格的数据清洗策略。具体而言，构建过程中对每个视频片段进行了低层次的运动控制（如自我视角的平移和旋转）和高层次的文本描述的详细注释。此外，基于先前研究中的数据清洗策略，本数据集特别设计了一套适用于以自我为中心场景的清洗流程。

特点

EgoVid-5M数据集的显著特点在于其大规模和高质量的以自我为中心的视频片段，以及详尽的动作注释。数据集不仅包含了500万个视频片段，还提供了低层次的运动控制信息和高层次的文本描述，这为研究者和开发者提供了丰富的数据资源。此外，数据集通过专门设计的清洗流程，确保了视频帧的一致性和动作的连贯性，从而提高了生成模型的训练效果。这些特点使得EgoVid-5M成为以自我为中心视频生成领域的宝贵资源。

使用方法

使用EgoVid-5M数据集时，用户首先需要从Ego4D官方网站下载源视频，可以选择下载1080P或540P分辨率的视频。数据集本身包含了动作注释和清洗元数据，用户可以通过提供的CSV文件获取视频片段的详细信息，包括视频ID、帧数、帧率、动作描述等。此外，数据集还提供了运动控制和文本描述的详细注释，以及通过Kalman滤波器计算的相机外参。用户可以根据需要使用这些注释和元数据进行模型训练和验证。

背景与挑战

背景概述

EgoVid-5M数据集是由一支专业的研究团队精心构建的高质量动作视频数据集，专门用于第一人称视角（egocentric）视频生成。该数据集包含了500万段第一人称视角视频片段，并附有详细的动作注释，包括细粒度的运动控制和高层次的文本描述。其构建时间可追溯至2024年，主要研究人员包括Wang Xiaofeng、Zhao Kang等人，他们来自多个知名机构。EgoVid-5M的核心研究问题是如何在第一人称视角下生成连贯且真实的视频，这一研究对计算机视觉和人工智能领域具有重要影响，尤其是在视频生成和动作识别方面。

当前挑战

EgoVid-5M数据集在构建过程中面临多项挑战。首先，确保视频片段在第一人称视角下的动作连贯性和运动平滑性是一个复杂的问题，需要精细的数据清洗策略。其次，数据集的注释工作，特别是细粒度的运动控制和高层次文本描述的生成，需要高度专业化的技术和工具支持。此外，数据集的规模庞大，如何高效地管理和处理这些数据也是一个重要的技术挑战。最后，由于第一人称视角视频的特殊性，如何确保生成的视频在视觉和语义上的连贯性，以及如何评估这些视频的质量，都是该数据集需要解决的关键问题。

常用场景

经典使用场景

在计算机视觉领域，EgoVid-5M数据集以其庞大的规模和精细的标注成为研究自我中心视频生成的理想选择。该数据集包含了500万个自我中心视频片段，每个片段都附有详细的动作注释，包括低层次的运动控制和高层次的文本描述。这些注释不仅涵盖了自我视角的平移和旋转，还提供了动作的文本摘要，使得研究者能够深入探索动作与视觉信息之间的关系。通过利用这些丰富的注释，研究者可以开发和验证新的生成模型，以模拟和预测自我中心视角下的动作序列，从而推动视频生成技术的发展。

衍生相关工作

EgoVid-5M数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者开发了多种自我中心视角的视频生成模型，这些模型在生成质量和动作一致性方面取得了显著进展。同时，数据集中的详细注释也激发了关于动作理解和描述的研究，推动了自然语言处理与计算机视觉的跨学科融合。此外，数据集的清洗策略和质量评估方法也为其他视频数据集的构建和优化提供了宝贵的参考，促进了整个领域的数据标准化和质量提升。

数据集最近研究