HuMo

Name: HuMo
Creator: 清华大学,字节跳动智能创作实验室
Published: 2025-09-10 19:54:29
License: 暂无描述

arXiv2025-09-10 更新2025-11-24 收录

下载链接：

https://github.com/Phantom-video/HuMo

下载链接

链接失效反馈

官方服务：

资源简介：

HuMo数据集是一个高质量的多模态数据集，包含文本、参考图像和音频三种模态的配对三元组条件。数据集构建经过两阶段的多模态数据处理流程，首先从大规模视频样本中检索与视频语义相同但视觉属性不同的参考图像，其次通过语音增强和语音-唇对齐估计进一步筛选具有同步音频轨道的视频样本。数据集的构建为后续多模态视频生成模型的学习提供了坚实的基础，旨在解决人本视频生成中数据稀缺和多模态协同控制困难的问题。

The HuMo dataset is a high-quality multimodal dataset that contains paired triplet conditions across three modalities: text, reference images, and audio. Its construction follows a two-stage multimodal data processing pipeline: first, retrieve reference images that share identical semantic content with the source video but possess distinct visual attributes from a large-scale video corpus; second, further filter video samples with synchronized audio tracks through speech enhancement and speech-lip alignment estimation. The dataset lays a solid foundation for the training of downstream multimodal video generation models, aiming to tackle the challenges of data scarcity and difficulties in multimodal collaborative control in human-centric video generation.

提供机构：

清华大学,字节跳动智能创作实验室

创建时间：

2025-09-10

搜集汇总

数据集介绍

构建方式

在构建HuMo数据集的过程中，研究团队采用了两阶段多模态数据处理流程。首先，基于大规模文本-视频样本，通过检测、匹配、筛选和验证等步骤，从数十亿规模的图像语料库中为视频样本中的每个主体检索具有相同语义但视觉属性各异的参考图像，以确保忠实的主体保持和灵活的文本编辑能力。其次，为达成音频同步的视频生成，进一步利用语音增强和唇语对齐估计技术筛选具有同步音频轨道的视频样本，从而构建了一个包含配对三元条件的高质量多模态数据集。

使用方法

在使用HuMo数据集进行模型训练时，采用渐进式多模态训练范式，分阶段学习文本-图像控制和音频-视觉同步能力。首先在主题保持任务中，通过最小侵入式图像注入策略将参考图像潜在表示与噪声视频潜在序列拼接，仅更新自注意力层以保持基础模型的文本跟随能力。随后在音频-视觉同步任务中，引入音频交叉注意力层并结合焦点预测策略隐式引导模型关注面部区域。推理阶段则通过时间自适应无分类器引导策略动态调整各模态的引导权重，实现灵活且协同的多模态控制。

背景与挑战

背景概述

HuMo数据集于2025年9月由清华大学与字节跳动智能创作实验室联合发布，聚焦于以人为中心的视频生成领域。该数据集旨在解决多模态输入条件下生成高质量人类视频的核心问题，通过整合文本、参考图像与音频三种异构模态，推动可控视频生成技术的发展。其构建基于大规模视频样本与跨模态检索技术，显著提升了生成内容在语义一致性、身份保持与视听同步方面的表现，为短视频创作提供了高效解决方案。

当前挑战

HuMo数据集面临两大核心挑战：在领域问题层面，需协同解决文本语义遵循、参考图像身份保持与音频驱动口型同步的多任务冲突，传统方法常因模态间相互干扰导致性能失衡；在构建过程中，缺乏公开的三元对齐多模态训练数据，需设计复杂的数据处理流程，包括跨亿级图像库的语义检索、语音增强与唇部同步分析，以克服异构模态对齐困难与数据稀缺性问题。

常用场景

经典使用场景

在人类中心视频生成领域，HuMo数据集作为多模态协同控制的关键资源，其经典应用场景集中于通过文本、参考图像和音频三模态输入生成高度一致的人类视频。该数据集支持从单一肖像到复杂场景的多样化生成任务，例如根据文本描述调整人物服饰、结合音频驱动唇部同步、以及保持参考图像中的主体身份一致性，为研究多模态协同生成提供了标准化测试平台。

解决学术问题

HuMo数据集有效解决了多模态人类视频生成中的两大核心学术问题：其一是通过构建高质量的三模态配对数据缓解了训练数据稀缺的瓶颈，其二是通过渐进式训练范式突破了文本遵循、主体保持与音视频同步之间的性能权衡困境。该数据集为研究异构模态的协同学习机制提供了实验基础，推动了生成模型在多模态控制精度与稳定性方面的理论进展。

实际应用

该数据集在短视频创作、虚拟人生成和影视预制作等实际场景中展现显著价值。通过输入演员肖像、剧本文本和配音音频，制作方可快速生成符合角色设定的动态视频片段，大幅降低实拍成本。在教育领域，它能生成与讲解音频同步的讲师视频；在电商场景中，则可实现商品与模特动作的个性化视频定制，显著提升数字内容的生产效率与创造性。

数据集最近研究