omnihuman_dataset

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/julia527/omnihuman_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OmniHuman 是一个大规模视频数据集，旨在支持以人为中心的理解和生成任务。该数据集目前发布了 200,000 个视频，其中 20% 为双人视频，包含 20,000 个独特身份。数据集结构包括视频、跟踪数据、参考面部图像、样本 JSON 注释和元数据等。所有大型资产以 tar 分片形式存储在 'archives/' 目录下。数据集目前处于构建阶段，上传进度不足 10%，不建议用于训练。数据集提取后，分为训练集和测试集，每个集合进一步分为单人视频和双人视频子集。每个子集包含视频、跟踪数据、参考面部图像、样本 JSON 注释和元数据等文件夹。样本 JSON 文件包含人员跟踪、视频级元数据、结构化主题注释、字幕和语言注释、语音注释以及质量/一致性信号等信息。用户可以通过 Hugging Face 下载数据集，并使用提供的脚本提取数据。此外，数据集还提供了一个轻量级预览版本，可通过 'datasets' 库直接加载。

创建时间：

2026-04-09

原始信息汇总

OmniHuman 数据集概述

数据集基本信息

数据集名称: OmniHuman Dataset
数据集状态: 构建中（当前上传 <10%，非完整数据集，结构与数据可能变更，请勿用于训练）
核心用途: 面向以人为中心的理解与生成任务的大规模视频数据集
发布规模: 已发布视频总数 200,000 个
身份数量: 包含 20,000 个独立身份 (id)
视频类型: 双人视频占全部发布视频的 20%

数据集结构与内容

存储结构

大型资产以 tar 分片形式存储在 archives/ 目录下。
train/ 和 test/ 目录不直接包含在仓库中，需通过解压归档文件重建。
Hugging Face Hub 上提供的内容结构如下：

omnihuman_1/ ├── README.md ├── scripts/ # 提取与工具脚本 ├── preview/ # 轻量级预览数据 └── archives/ # 归档文件 ├── videos_index.csv ├── videos_part_00000.tar ├── ... ├── tracking_npz_index.csv ├── tracking_npz_part_.tar ├── ref_face_index.csv ├── ref_face_part_.tar ├── sample_json_index.csv ├── sample_json_part_.tar.gz ├── metadata_index.csv └── metadata_part_.tar.gz

数据目录（解压后）

解压后，仓库根目录将包含以下结构：

train/: 训练集
test/: 用于评估和比较的基准测试集
每个集合进一步划分为两个子集：
- single/: 单人视频
- double/: 双人视频

每个子集 (single/ 或 double/) 包含以下文件夹：

文件夹	描述
`videos/`	发布的视频文件
`tracking_npz/`	源自跟踪输出的 `.npz` 文件
`ref_face/`	裁剪后的参考人脸图像（如 `REF_0_face`, `REF_1_face`）
`sample_json/`	每个样本对应的一个清洗后的 JSON 标注文件
`metadata/`	用于扫描和加载的 JSONL 索引文件
注：对于 `double/` 样本，两个人的跟踪数据存储在同一 `.npz` 文件中。

核心标注文件

sample_json/xxx.json 是每个样本的核心标注文件，通常包含：

人物跟踪: 人物ID、匹配身份、面部ID、帧范围、音频对齐字段、模糊/质量统计。
视频级元数据: 帧率、时长、分辨率、背景音频字段。
结构化主体标注: 外观、动作、表情、位置、主体类型、主体标志。
字幕与语言标注: 英文/中文字幕、REF关联变体（双人情况）、替换文本变体、音频-字幕字段。
语音标注: 说话者语言、转录文本、情感、画外音标志。
质量/一致性信号: 如 semantic_consistency 等字段。

数据获取与使用

下载方式

使用 git lfs (推荐): bash git lfs install git clone https://huggingface.co/datasets/<HF_DATASET_ID> cd <HF_DATASET_ID> git lfs pull
使用 huggingface-cli: bash huggingface-cli download <HF_DATASET_ID> --repo-type dataset --local-dir . --local-dir-use-symlinks False

数据提取

需从 archives/ 解压以获取完整数据集。

提取全部内容（视频+所有资产）: bash python scripts/extract_video_from_archives.py --repo-root . --all && for asset in tracking_npz ref_face sample_json metadata; do python scripts/extract_asset_from_archives.py --repo-root . --asset "$asset" --all done
仅提取视频: bash python scripts/extract_video_from_archives.py --repo-root . --all
部分提取: 支持提取单个 tar 分片或单个文件，具体命令参见 README。

快速预览

Hub 托管了一个轻量级预览数据集，无需解压归档即可加载： python from datasets import load_dataset ds = load_dataset("<HF_DATASET_ID>", "omnihuman_supp_all", split="train")

搜集汇总

数据集介绍

构建方式

在计算机视觉与人工智能领域，大规模视频数据集的构建是推动人本理解与生成任务发展的基石。OmniHuman数据集通过系统化的采集与标注流程，整合了20万段视频资源，涵盖单人与双人场景，其中双人视频占比达20%，并涉及2万个独立身份标识。数据以分片压缩包形式存储，包含视频、跟踪数据、参考人脸图像、样本标注及元数据等多个模态，通过结构化索引文件实现高效组织与管理，确保了数据的一致性与可扩展性。

特点

该数据集在人本计算研究中展现出显著的多模态与细粒度特性。它不仅提供原始视频流，还附带了人物跟踪、参考人脸裁剪、结构化标注及语音转录等多维度辅助数据。数据集按训练与测试划分，并进一步细分为单人与双人子集，每种子集均包含完整的配套资产。其标注内容涵盖人物身份、动作、表情、位置及语义描述，并融入质量一致性信号，为模型训练与评估提供了丰富的上下文信息。

使用方法

为充分利用OmniHuman数据集，用户需首先从HuggingFace平台下载完整的归档文件，随后通过配套脚本解压所需资产。数据集支持全量提取或按分片、单文件进行部分提取，以适应不同计算环境与实验需求。解压后，数据按训练/测试及单/双人目录层次组织，便于程序化加载。对于快速预览，可直接通过`datasets`库加载轻量级预览版本；而进行全量模型训练或深入分析时，则需基于解压后的本地文件结构，结合元数据索引与样本标注文件构建数据管道。

背景与挑战

背景概述

OmniHuman数据集作为一项大规模视频数据资源，专注于以人为中心的理解与生成任务，其构建旨在推动计算机视觉与人工智能领域的前沿研究。该数据集由相关研究机构于近期发布，涵盖了总计二十万条视频数据，其中包含两万独特身份标识，并特别标注了双人交互场景，占比达百分之二十。其核心研究问题聚焦于如何通过高质量、多样化的视频样本，支持人体动作识别、面部表情分析、多模态语言生成等复杂任务的模型训练与评估，从而为生成式人工智能与具身智能系统的发展提供关键数据支撑。

当前挑战

在构建OmniHuman数据集的过程中，研究团队面临多重挑战。从领域问题视角看，以人为中心的视频理解需克服场景多样性、身份隐私保护、动作语义标注一致性等难题，尤其是在双人交互场景中，如何精确分离并标注个体行为与相互关系，对现有标注范式提出了更高要求。在数据构建层面，大规模视频数据的采集、清洗与结构化处理涉及巨量存储与计算资源，同时确保视频质量、追踪准确性及多模态对齐（如视觉、语音、文本）的完整性，亦是工程实现中的显著障碍。此外，数据集的分布式存储与高效提取机制，如通过分片归档管理，虽提升了可访问性，但也增加了用户端数据重构的复杂性。

常用场景

经典使用场景

在计算机视觉与人工智能领域，大规模视频数据集对于推动人类中心的理解与生成任务至关重要。OmniHuman数据集以其包含20万视频片段和2万个独特身份的规模，为研究者提供了丰富的视觉素材。该数据集最经典的使用场景在于训练和评估视频中的人类行为分析、姿态估计以及身份识别模型。通过其提供的单人及双人视频子集，研究者能够针对不同交互场景开发算法，特别是在多人动态环境下的人体运动捕捉与语义理解方面展现出显著价值。

实际应用

在实际应用层面，OmniHuman数据集为虚拟现实、增强现实以及智能监控系统提供了关键数据支持。基于该数据集训练的模型能够实现实时的人体姿态生成、面部表情驱动以及自然语言描述的视频内容检索。在娱乐产业中，它可用于创建高度逼真的数字人物与互动场景；在教育与医疗领域，则支持开发个性化的培训模拟与康复辅助工具。这些应用不仅提升了人机交互的自然度，也为多模态人工智能系统的商业化落地奠定了坚实基础。

衍生相关工作

围绕OmniHuman数据集，学术界已衍生出一系列经典研究工作。例如，在视频生成领域，研究者利用其大规模身份与动作标注，开发了能够合成高质量人类动作序列的扩散模型；在跨模态学习方面，基于该数据集的多语言字幕与音频对齐信息，促进了视觉-语言预训练模型的性能提升。此外，针对双人交互场景的追踪与识别算法也取得了显著进展，这些工作共同推动了人类中心人工智能从感知到生成的全面演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集