OmniHuman

github2026-04-13 更新2026-04-14 收录

下载链接：

https://github.com/julia-cherry/OmniHuman

下载链接

链接失效反馈

官方服务：

资源简介：

OmniHuman是一个大规模、多场景的数据集，专为细粒度人类建模设计。它提供了覆盖视频级场景、帧级交互和个体级属性的分层注释。数据集通过全自动管道进行高质量数据收集和多模态注释。

OmniHuman is a large-scale, multi-scenario dataset specifically designed for fine-grained human modeling. It provides hierarchical annotations covering video-level scenarios, frame-level interactions, and individual-level attributes. The dataset adopts a fully automated pipeline to carry out high-quality data collection and multimodal annotation.

创建时间：

2026-04-10

原始信息汇总

OmniHuman 数据集概述

数据集简介

OmniHuman 是一个为细粒度人体建模设计的大规模、多场景数据集，旨在解决以人为中心的视频生成在复杂真实物理场景中的挑战。该数据集通过分层标注覆盖视频级场景、帧级交互和个体级属性。

核心特点

规模与设计：大规模、多场景数据集，用于细粒度人体建模。
标注层次：提供分层标注，涵盖视频级场景、帧级交互（人人交互、人物交互）和个体级属性。
数据收集：采用全自动流水线进行高质量数据收集和多模态标注。

数据集获取

主要存储库：数据集托管于 Hugging Face。
访问地址：omnihuman_dataset 可通过 Hugging Face 数据集页面获取。
使用说明：下载和使用请遵循 Hugging Face 数据集页面上的指引。

配套基准测试 (OHBench)

基准测试系统：OmniHuman Benchmark (OHBench) 是一个三级评估系统，为以人为中心的音视频合成提供科学诊断。
评估维度：OHBench 引入了与人类感知高度一致的指标，填补了现有基准测试在全局场景、关系交互和个体属性综合诊断方面的空白。
资产获取：基准测试资产（模型与 ohbench_dir.tar）托管于 Hugging Face 模型仓库。
资产内容：
- omnihuman/ohbench/models/：所有模型检查点（主要为 .pt / .onnx 文件及少量必需的模型目录）。
- omnihuman/ohbench/ohbench_dir/：由 ohbench/configs/paths.env 引用的已解压基准测试资产。

基准测试指标

OHBench 的顶级评估类别与指标键如下：

video_quality (视频质量)：
- 指标：IQ (成像质量)、DD (动态程度)、IC (身份一致性-单人)、IC* (身份一致性-双人)、V-A (图像绑定-音频视频)、T-A (CLAP 分数)。
- 对应模块：evaluators/video_quality、evaluators/identity_consistency、evaluators/av_semantic_alignment。
audio_quality (音频质量)：
- 指标：FD、KL、AbS、WER、LSE-C。
- 对应模块：evaluators/audio_quality。
speech_quality (语音质量)：
- 指标：SQ (DNSMOS 整体平均意见得分)。
- 对应模块：evaluators/speech_quality。
person_person (人人交互)：
- 指标：IN、ES、LR (基于大语言模型；仅适用于双人视频)。
- 对应模块：evaluators/person-person。

实验验证

实验表明，仅使用 OmniHuman 数据集的 20% 进行微调即可显著提升模型性能，验证了其在推进复杂场景建模方面的有效性。

搜集汇总

数据集介绍

构建方式

在人类中心视频生成领域，现有数据集常因场景单一、交互稀疏及属性对齐不足而受限。OmniHuman通过构建全自动化流水线，系统采集多场景视频数据，并实施分层标注策略，涵盖视频级场景、帧级交互及个体级属性，从而形成大规模、细粒度的人类建模数据集。该流程确保了数据的高质量与多模态标注的完整性，为复杂现实场景下的视频生成提供了坚实基础。

特点

OmniHuman以其层次化标注体系脱颖而出，全面覆盖全局场景多样性、密集的人际与人物交互关系，以及精细的个体属性对齐。数据集通过引入与人类感知高度一致的评估指标，弥补了现有基准在全局场景、关系交互和个体属性诊断方面的空白。其配套的OHBench基准提供三级评估系统，能够科学诊断音频-视频合成质量，有效支持复杂场景建模的进步。

使用方法

用户可通过Hugging Face平台获取OmniHuman数据集及OHBench基准资源。使用前需配置环境，推荐采用Docker容器或Conda虚拟环境安装依赖。运行评估时，需编辑路径配置文件以指向本地资产目录，随后通过脚本对生成的MP4视频文件进行全类别或单类别指标评估。评估结果将聚合为JSON文件，涵盖视频质量、音频质量、语音质量及人际交互等多个维度，为模型性能提供全面诊断。

背景与挑战

背景概述

随着音视频联合生成模型的快速发展，内容创作领域展现出前所未有的潜力。然而，在复杂现实物理场景中生成高保真的人类中心视频，依然面临严峻挑战。OmniHuman数据集应运而生，旨在通过大规模、多场景的数据资源，推动细粒度人体建模研究。该数据集由研究团队于近期构建，其核心目标在于弥补现有数据在全局场景与相机多样性、人际与人物交互建模稀疏性以及个体属性对齐不足三个维度的结构性缺陷。OmniHuman采用分层标注体系，涵盖视频级场景、帧级交互及个体级属性，并辅以全自动的高质量数据收集与多模态标注流程。通过引入与之配套的OmniHuman Benchmark（OHBench）三级评估系统，该数据集为人类中心音视频合成提供了科学诊断工具，显著提升了复杂场景建模的性能，对推动生成式人工智能在具身交互与动态模拟领域的发展具有重要影响力。

当前挑战

OmniHuman数据集致力于解决人类中心视频生成领域的核心挑战，即如何在多样化、动态交互的现实场景中，合成具有高保真度、身份一致性与自然交互行为的视频内容。具体而言，该领域面临场景全局多样性与相机运动有限、人际与人物交互表征稀疏、以及个体属性如身份、姿态与外观对齐不足等难题。在数据集构建过程中，挑战同样显著：大规模高质量视频数据的采集需覆盖广泛真实场景，确保物理合理性；自动化标注流程需实现视频、帧与个体多层次信息的精准对齐，尤其在复杂交互情境下保持标注一致性；此外，多模态数据（如音频、视觉、文本）的同步与融合也对技术管道提出了极高要求。这些挑战共同构成了数据集构建与领域问题解决的双重难点。

常用场景

经典使用场景

在视频生成领域，OmniHuman数据集为复杂物理场景中的人体中心视频合成提供了关键支撑。其经典使用场景聚焦于训练和评估音频-视频联合生成模型，特别是在涉及多人交互、人物-物体互动的真实世界环境中。通过提供层次化的标注体系，包括视频级场景、帧级交互和个体级属性，该数据集使得模型能够学习到全局场景多样性、动态关系建模以及细粒度身份对齐，从而生成高保真且符合物理规律的人类行为视频。

解决学术问题

OmniHuman主要解决了现有数据在三个维度上的结构性缺陷：全局场景与摄像机多样性不足、人际与人物交互建模稀疏、个体属性对齐不充分。这些缺陷限制了模型在复杂场景中生成高质量人体中心视频的能力。通过引入大规模、多场景的标注数据，该数据集为学术界提供了系统性的诊断工具，推动了生成模型在真实物理约束下的表现评估，填补了现有基准在全局场景、关系交互和个体属性综合评估方面的空白。

衍生相关工作

围绕OmniHuman数据集，已衍生出多项经典研究工作，尤其是其配套的OmniHuman Benchmark（OHBench）评估体系。该基准引入了与人类感知高度一致的度量标准，如视频质量中的动态程度、身份一致性，以及音频-视频语义对齐等。这些工作不仅为生成模型提供了多层次的科学诊断工具，还促进了跨模态对齐、交互关系建模等领域的方法创新，推动了人体中心视频生成技术向更精细、更可靠的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集