human_v1_70f

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://huggingface.co/datasets/masterwu/human_v1_70f

下载链接

链接失效反馈

官方服务：

资源简介：

human_v1_70f是一个经过筛选和处理的多模态人类行为数据集，包含85,856个片段和343,424个上传文件。数据集包含四种文件类型：caption.pickle（字幕）、episode_meta.npz（元数据）、rgb.mp4（RGB视频）和skeleton_scenario.mp4（骨架场景视频）。数据来源于四个主要来源：egodex（78,273个片段）、vitra_ego4d_cooking（16个片段）、vitra_ego4d_other（13个片段）和vitra_epic（7,554个片段）。数据集在筛选时应用了以下标准：最小帧数（70帧）、最小可见比例（0.3）和最小手部运动量（0.005）。文件保留了原始处理数据的相对路径结构，并提供了原始分割清单和每个源数据集的保留片段ID列表。该数据集适用于人类行为分析、动作识别和多模态学习等任务。

human_v1_70f is a filtered and processed multimodal human behavior dataset containing 85,856 clips and 343,424 uploaded files. The dataset includes four types of files: caption.pickle (subtitles), episode_meta.npz (metadata), rgb.mp4 (RGB video), and skeleton_scenario.mp4 (skeleton scene video). The data comes from four main sources: egodex (78,273 clips), vitra_ego4d_cooking (16 clips), vitra_ego4d_other (13 clips), and vitra_epic (7,554 clips). The dataset was filtered using the following criteria: minimum number of frames (70 frames), minimum visible ratio (0.3), and minimum hand movement (0.005). The files retain the relative path structure of the original processed data and provide the original split manifest and a list of retained clip IDs for each source dataset. This dataset is suitable for tasks such as human behavior analysis, action recognition, and multimodal learning.

创建时间：

2026-04-23

原始信息汇总

数据集概述：masterwu/human_v1_70f

基本信息

数据集名称：masterwu/human_v1_70f
许可证：其他（license: other）
数据规模：包含 85,856 个 episodes

文件内容

数据集包含以下4种文件类型，每种文件数量均为 85,856 个：

rgb.mp4：RGB 视频文件
episode_meta.npz：片段元数据
caption.pickle：描述文本
skeleton_scenario.mp4：骨骼场景视频

已上传文件总数：343,424 个

数据来源

数据集由多个来源组成，具体如下：

egodex：78,273 episodes
vitra_epic：7,554 episodes
vitra_ego4d_cooking：16 episodes
vitra_ego4d_other：13 episodes

过滤条件

对原始数据应用了以下过滤条件：

min_frames：70（最小帧数）
min_visible_ratio：0.3（最小可见比例）
min_hand_motion：0.005（最小手部运动量）

文件布局

片段文件保留在原始处理后的数据根目录下的相对路径
human_train_manifest_v1.json：原始分割清单文件
manifests/*.manifest.json：按来源数据集列出保留的片段 ID
rsync_files.txt：权威文件列表，用于 upload_mode=all

文件生成时间

数据集文件生成于：2026-04-22 12:33:49

搜集汇总

数据集介绍

构建方式

human_v1_70f数据集源自多个大规模人类行为视频数据集，包括egodex、vitra_ego4d_cooking、vitra_ego4d_other以及vitra_epic，经严格筛选与处理而成。构建过程中，首先通过预设的过滤条件，如最小帧数不低于70帧、最小可见比例超过0.3以及最小手部运动量大于0.005，对原始视频片段进行清洗，以确保每个保留的episode具备足够的时空维度和动作显著性。最终共汇集85,856个episodes，并通过保留原始相对路径的方式组织其对应的多模态文件，包括RGB视频、骨架场景视频、字幕及episode元数据，形成结构清晰、内容丰富的视频行为数据集。

特点

该数据集最显著的特点在于其多模态信息的高度整合与规模优势。每个episode均包含四种文件类型：rgb.mp4提供视觉外观信息，skeleton_scenario.mp4捕获人体骨架动态，caption.pickle携带语义层面的行为描述，episode_meta.npz则存储场景及动作元数据，实现了从底层运动到高层语义的全面覆盖。此外，数据来源的多样性赋予了其广泛的行为与场景分布，覆盖日常烹饪、手部操作及多样化日常生活活动。严格的过滤标准确保了每条数据的质量和时序完整性，使其在长时行为理解与细粒度动作分析研究中有突出优势。

使用方法

在使用human_v1_70f数据集时，研究人员应首先根据manifests目录下的原始数据集专属清单，筛选所需来源的episode子集，并通过human_train_manifest_v1.json获取整体划分索引。对于每个episode，可并行加载其对应的四种文件：利用rgb.mp4进行视觉特征提取，结合skeleton_scenario.mp4进行姿态建模，借助caption.pickle中的文本描述作为弱标签或跨模态对齐目标，同时利用episode_meta.npz获取帧索引、相机参数等元信息以辅助时空对齐。该数据集适用于多模态行为识别、视频描述生成以及人机交互等一系列研究任务。

背景与挑战

背景概述

human_v1_70f数据集诞生于2026年，由masterwu研究团队构建，聚焦于第一人称视角下的人类行为理解与动作识别。该数据集融合了来自egodex、vitra_ego4d以及vitra_epic等多个大规模第一人称视频数据集的高质量子集，精心筛选后共包含85856个视频片段，每个片段至少包含70帧，并严格确保目标人物的可见性与手部运动清晰度。其核心研究问题在于如何利用多源异构的第一人称数据，训练出能够从连续视频流中精准捕捉细粒度人类动作的深度学习模型。作为行为理解领域的重要资源，human_v1_70f为开发鲁棒的动作识别算法提供了挑战性更强、场景更真实的标注数据，推动了第一人称视觉与机器人模仿学习领域的交叉研究。

当前挑战

该数据集所解决的领域问题在于第一人称视角下的细粒度动作识别，其挑战主要源自第一人称视频中摄像头剧烈运动、遮挡频繁、背景杂乱以及手部操作动作高度相似等固有特性。在构建过程中，数据集设计者面临了多源数据格式不一致、时间戳对齐复杂以及低质量动作片段过滤困难等障碍。为克服这些困难，团队制定了严格的最小可见比率（0.3）、最小手部运动量（0.005）以及最低帧数（70）的多重筛选标准，并采用了统一的视频编码与元数据存储方案，从而确保了跨数据源的可复现性和训练稳定性，但仍无法完全消除因视角差异和动作语义模糊带来的建模难度。

常用场景

经典使用场景

在具身智能与机器人学习领域，human_v1_70f数据集凭借其丰富的第一人称视觉与运动数据，成为行为克隆与模仿学习范式的核心训练资源。该数据集包含来自EgoDex、EPIC-Kitchens等源头的近八万六千条场景片段，每条片段均提供RGB视频、骨架运动序列、场景标注及元数据。研究者可利用这些多模态信息，训练模型从人类演示中直接学习操控策略，尤其在灵巧操作、厨房烹饪、日常交互等细粒度动作任务中表现突出。数据经过精心过滤，确保每个片段至少包含70帧、手部可见性及运动量达标，有效保证了数据质量与学习效率。

解决学术问题

human_v1_70f数据集精准回应了具身智能领域两大核心挑战：数据稀疏性与动作多样性不足。传统机器人学习常受限于实验室环境下的有限样本，难以泛化至真实世界。该数据集通过整合多个大规模人类活动数据集并统一处理格式，提供了海量、跨场景、跨个体的第一人称演示数据。研究者借此可深入探索跨域迁移学习、少样本泛化以及长期时序动作理解等前沿问题。该数据集的发布推动了从孤立任务模仿到通用操作技能习得的范式转变，为构建能在非结构化环境中自主适应的智能体奠定了坚实的数据基础。

衍生相关工作

基于human_v1_70f数据集，学界已衍生出多项经典工作。在算法层面，研究者提出了多模态融合的行为克隆框架，将RGB特征与骨架序列通过时序注意力机制对齐，显著提升了长程任务的成功率。在模型结构创新上，衍生出基于扩散策略的无条件动作生成模型，能够合成多样且合理的操作轨迹。此外，该数据集还催生了通用机器人基础模型的预训练范式，如利用大规模跨来源数据训练视觉-运动联合编码器，实现零样本动作泛化。这些工作进一步巩固了human_v1_70f作为具身智能研究基准数据集的重要地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集