omnihuman_dataset
收藏OmniHuman 数据集概述
数据集基本信息
- 数据集名称: OmniHuman Dataset
- 数据集状态: 构建中(当前上传 <10%,非完整数据集,结构与数据可能变更,请勿用于训练)
- 核心用途: 面向以人为中心的理解与生成任务的大规模视频数据集
- 发布规模: 已发布视频总数 200,000 个
- 身份数量: 包含 20,000 个独立身份 (
id) - 视频类型: 双人视频占全部发布视频的 20%
数据集结构与内容
存储结构
-
大型资产以 tar 分片形式存储在
archives/目录下。 -
train/和test/目录不直接包含在仓库中,需通过解压归档文件重建。 -
Hugging Face Hub 上提供的内容结构如下:
omnihuman_1/ ├── README.md ├── scripts/ # 提取与工具脚本 ├── preview/ # 轻量级预览数据 └── archives/ # 归档文件 ├── videos_index.csv ├── videos_part_00000.tar ├── ... ├── tracking_npz_index.csv ├── tracking_npz_part_.tar ├── ref_face_index.csv ├── ref_face_part_.tar ├── sample_json_index.csv ├── sample_json_part_.tar.gz ├── metadata_index.csv └── metadata_part_.tar.gz
数据目录(解压后)
解压后,仓库根目录将包含以下结构:
train/: 训练集test/: 用于评估和比较的基准测试集- 每个集合进一步划分为两个子集:
single/: 单人视频double/: 双人视频
每个子集 (single/ 或 double/) 包含以下文件夹:
| 文件夹 | 描述 |
|---|---|
videos/ |
发布的视频文件 |
tracking_npz/ |
源自跟踪输出的 .npz 文件 |
ref_face/ |
裁剪后的参考人脸图像(如 REF_0_face, REF_1_face) |
sample_json/ |
每个样本对应的一个清洗后的 JSON 标注文件 |
metadata/ |
用于扫描和加载的 JSONL 索引文件 |
注:对于 double/ 样本,两个人的跟踪数据存储在同一 .npz 文件中。 |
核心标注文件
sample_json/xxx.json 是每个样本的核心标注文件,通常包含:
- 人物跟踪: 人物ID、匹配身份、面部ID、帧范围、音频对齐字段、模糊/质量统计。
- 视频级元数据: 帧率、时长、分辨率、背景音频字段。
- 结构化主体标注: 外观、动作、表情、位置、主体类型、主体标志。
- 字幕与语言标注: 英文/中文字幕、REF关联变体(双人情况)、替换文本变体、音频-字幕字段。
- 语音标注: 说话者语言、转录文本、情感、画外音标志。
- 质量/一致性信号: 如
semantic_consistency等字段。
数据获取与使用
下载方式
-
使用
git lfs(推荐): bash git lfs install git clone https://huggingface.co/datasets/<HF_DATASET_ID> cd <HF_DATASET_ID> git lfs pull -
使用
huggingface-cli: bash huggingface-cli download <HF_DATASET_ID> --repo-type dataset --local-dir . --local-dir-use-symlinks False
数据提取
需从 archives/ 解压以获取完整数据集。
-
提取全部内容(视频+所有资产): bash python scripts/extract_video_from_archives.py --repo-root . --all && for asset in tracking_npz ref_face sample_json metadata; do python scripts/extract_asset_from_archives.py --repo-root . --asset "$asset" --all done
-
仅提取视频: bash python scripts/extract_video_from_archives.py --repo-root . --all
-
部分提取: 支持提取单个 tar 分片或单个文件,具体命令参见 README。
快速预览
Hub 托管了一个轻量级预览数据集,无需解压归档即可加载: python from datasets import load_dataset ds = load_dataset("<HF_DATASET_ID>", "omnihuman_supp_all", split="train")




