HumanNet

github2026-05-06 更新2026-05-08 收录

下载链接：

https://github.com/DAGroup-PKU/HumanNet

下载链接

链接失效反馈

官方服务：

资源简介：

HumanNet是一个百万小时级的以人为中心的视频语料库，设计用于细粒度活动理解、运动感知视频学习和具身预训练。它配对第一人称和第三人称镜头，带有字幕标签、运动注释以及手部和身体信号，通过多轴分类法组织，并通过一个将人为中心过滤、视角特征化、质量控制和隐私审查作为首要设计选择的筛选流程产生。

HumanNet is a million-hour-scale human-centric video corpus designed for fine-grained activity understanding, motion-aware video learning, and embodied pre-training. It pairs first-person and third-person video footage, featuring caption labels, motion annotations, and hand and body signals, which are organized using a multi-axis taxonomy. The corpus is generated via a filtering pipeline that prioritizes human-centric filtering, viewpoint characterization, quality control, and privacy review as its core design considerations.

创建时间：

2026-05-06

原始信息汇总

HumanNet 数据集概述

基本信息

数据集名称：HumanNet
所属机构：北京大学 DAGroup & SimpleSilicon Team
发布时间：2026年（技术报告及项目页面已发布）
论文链接：HumanNet 技术报告
项目主页：Project Page
数据集下载：Hugging Face - DAGroup-PKU/HumanNet
许可协议：Apache-2.0

数据集规模

总时长：一百万小时（1,000,000 hours） 的人类中心视频
数据来源包括：受控场景、半结构化环境、社区视频、网络视频以及特定领域视频

核心特性

1. 大规模

百万小时级别的人类中心视频语料库

2. 视角多样性

同时包含第一人称（egocentric） 和第三人称（third-person） 视频
视角信息经过显式索引和平衡处理

3. 多维度标注

字幕标签（Caption labels）
运动描述（Motion descriptions）
手部和身体信号（Hand and body signals）
运动中心表示（Motion-centric representations）

4. 多轴分类体系

数据集按以下维度组织：

数据来源类型
视角（第一人称/第三人称）
任务结构
环境
交互方式
运动类别
元数据可用性

数据处理流程

数据集采用专门的筛选管线，包含以下关键步骤：

数据采集
人类中心过滤
视角识别
视频分割
去重
质量控制
隐私审核
字幕/运动标注

（上述管线代码即将开源发布）

验证结果

在固定的 LingBot-VLA 后训练框架下（100个任务，每任务20个episode，共34小时）：

预训练数据源	效果
HumanNet 中 1,000 小时第一人称视频	匹配或略优于 100 小时真实机器人数据
HumanNet 中 1,000 小时第一人称视频	显著缩小与 20,000 小时真实机器人基线的差距

这表明：大规模第一人称人类视频在机器人数据有限时，是一种可扩展且高性价比的替代方案。

伦理与隐私

视频来源为公共领域，仅用于研究展示
将遵循许可证审查、内容编辑、受限内容过滤、访问控制等措施
提供清晰的数据集包含/排除说明

待发布计划

状态	内容
✅ 已发布	HumanNet 技术报告
🔜 即将发布	数据处理管线源码
🔜 即将发布	Hugging Face 预览子集
🔜 即将发布	完整百万小时数据集及元数据/标注
🔜 即将发布	基于 HumanNet 初始化的训练权重

搜集汇总

数据集介绍

构建方式

HumanNet是一个规模达一百万小时的人类中心视频语料库，其构建过程采用了一套精心设计的策展流程。该流程将人类中心化过滤、视角特征刻画、质量控制以及隐私审查等环节作为首要设计考量。数据来源于受控场景、半结构化环境、社区贡献、网络公开资源以及特定领域等多个渠道，并经过细致的去重与分割处理。同时，数据集依据源类型、视角、任务结构、环境、交互风格、动作类别及元数据可用性等多个维度构建了多轴分类体系，以确保数据的系统性与层次化组织。

特点

该数据集的核心特色在于其非凡的规模与丰富的视角多样性，同时包含了第一人称和第三人称的影像资料，并进行了明确的索引与平衡。它提供了精细的标注信息，包括描述性标题标签、动作描述、手部与身体信号以及动作中心表征，为细粒度活动理解与运动感知视频学习奠定了坚实基础。尤为突出的是，其百万小时的庞大体量，使其成为具身预训练领域极具扩展性与成本效益的可扩展基础设施。

使用方法

使用HumanNet数据集，用户可通过Hugging Face平台进行下载。对于中国大陆用户，建议先设置镜像环境变量以加速访问。下载命令为使用Hugging Face Hub命令行工具执行 'huggingface-cli download DAGroup-PKU/HumanNet'。数据集的元数据和标注信息将与视频文件一同提供。研究社区可基于此数据初始化视觉-语言-动作后训练模型，验证结果表明，利用其中1000小时的第一人称视频进行模型初始化，在特定任务上能媲美甚至超越使用100小时真实机器人数据的效果。

背景与挑战

背景概述

在行为理解与具身智能领域，大规模人类视频数据是连接视觉感知与动作学习的关键桥梁。HumanNet由北京大学DAGroup与SimpleSilicon团队联合构建，于2026年发布，是一个规模达一百万小时的人类中心视频语料库，专为细粒度活动理解、运动感知视频学习及具身预训练而设计。该数据集通过精心设计的筛选流水线，整合了第一人称与第三人称视角的影像，并配备有描述标签、运动注释以及手部与身体信号，同时依据源类型、视角、任务结构等多轴分类体系进行组织。其核心研究问题在于探索以大规模自我中心视频替代昂贵且稀缺的真实机器人数据的可行性，实验表明，仅需1,000小时从HumanNet中抽取的自我中心视频进行初始化，即可媲美100小时真实机器人数据的效果，并显著缩小与20,000小时真实机器人基线的差距，从而为数据驱动型具身智能提供了经济且可扩展的范式。

当前挑战

HumanNet所面临的挑战首先源于领域问题的复杂性：人类中心视频学习需要同时处理视角多样性、动作精细度与语义歧义性，传统视频数据集或视角单一、规模有限，或缺乏细粒度运动注释，难以支撑具身模型的泛化与迁移。其次，构建过程挑战重重：从互联网海量视频中筛选出高质人类中心内容涉及隐私审查、视角识别、质量控制与去重等非平凡步骤；跨来源（如可控环境、社区分享、网络采集）的数据需统一标注体系，确保首/第三人称平衡；而百万小时量级下的运动描述生成、手部位姿标注与视觉-语言-动作对齐又需兼顾精度与规模化效率。此外，伦理隐私的双刃剑效应贯穿始终，如何在开放科学与合规红线间取得平衡成为数据集落地的关键瓶颈。

常用场景

经典使用场景

在视频理解与行为识别研究领域，HumanNet凭借其百万小时规模的人为中心视频语料，成为细粒度活动理解、运动感知学习以及具身智能预训练的基石性数据基础设施。研究者可借助其多视角（第一人称与第三人称）索引、多轴分类体系以及丰富的标注（包括字幕标签、运动描述、手部与身体信号），开展从微观动作解析到宏观行为语义建模的全链条探索。例如，利用其提供的运动中心表征进行动作分割与识别任务，或基于视角平衡的样本设计跨视角泛化算法，均是该数据集最经典的学术使用范式。

实际应用

HumanNet在实际应用中展现出多维度价值。在智能安防领域，其细粒度动作标注可赋能行为异常检测系统，从海量监控视频中精准识别跌倒、打架等高危行为。在虚拟现实与元宇宙构建中，第一人称视角数据的运动信号与手部标注可用于沉浸式交互设计，如自然手势控制与人体姿态驱动虚拟化身。尤为重要的是，HumanNet为机器人领域提供了低成本预训练方案：当实际机器人数据采集困难或昂贵时，利用该数据集的第三人称视频进行视觉-语言-动作联合预训练，可显著降低机器人学习对真实交互数据的依赖，加速服务型机器人在家庭、医疗等场景的部署落地。

衍生相关工作

HumanNet的发布催生了若干前沿研究方向。在其技术路线基础上，研究者可探索大规模视频预训练中的视角迁移机制，例如设计跨第一人称与第三人称的对比学习范式，以提升特征表达对视角变化的鲁棒性。其多轴分类体系标注的源类型、交互风格与运动类别，直接支撑了面向具身智能体的多模态语言模型微调方法，如LingBot-VLA后训练框架的改进工作。此外，该数据集附带的运动中心表征与手部信号标注，推动了细粒度动作先验在机器人模仿学习中的应用，衍生出如基于人类运动先验的零样本技能迁移、利用第三人称视频增强机器人策略泛化能力等一系列经典工作，进一步巩固了人中心视频数据在具身智能研究中的核心地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集