HumanOmni

github2025-02-19 更新2025-02-18 收录

下载链接：

https://github.com/HumanMLLM/HumanOmni

下载链接

链接失效反馈

官方服务：

资源简介：

HumanOmni数据集包含超过2.4M的人类中心视频片段，提供了丰富的个体信息，并提供了超过14M的视觉预训练指令数据。此外，还包括50K视频片段和超过100K的手动注释指令，用于视觉微调和跨模态交互集成。

The HumanOmni Dataset contains over 2.4 million human-centric video clips that provide rich individual-level information, along with more than 14 million visual pre-training instruction datasets. In addition, it also includes 50K video clips and over 100K manually annotated instructions for visual fine-tuning and cross-modal interaction integration.

创建时间：

2025-02-05

原始信息汇总

HumanOmni: 大型视觉-语音语言模型

概述

HumanOmni 是业界首个面向人类中心场景的Omni-模态大型语言模型，用于全面理解人类中心场景。

数据集特点

2.4M 人类中心视频片段，超过14M 双重校验指令：构建了一个包含超过2.4M人类中心视频片段的数据集，提供了关于个体的丰富详细信息。提供了超过14M指令数据用于视觉预训练。
50K 视频片段，超过100K 手动注释指令：对50K视频片段进行了手动注释，与情绪识别、面部描述和特定说话人语音识别相关的超过100K指令，用于视觉微调和跨模态交互集成。
三个面向人类特定分支：HumanOmni 使用三个分支分别处理与面部相关、身体相关和交互相关的场景，动态调整融合权重，确保在各种场景中准确响应。
音频-视觉协同：HumanOmni 可以同时理解视觉和语音，实现对复杂场景的更全面理解。

模型下载

HumanOmni-Omni：7B 参数，支持在 Hugging Face 和 ModelScope 上下载。
HumanOmni-Video 和 HumanOmni-Audio：7B 参数，即将上线。
HumanOmni-Omni：2B 参数，即将上线。

性能

情绪理解：HumanOmni 在情绪理解任务上表现出色，UAR 和 WAR 指标均高于其他模型。
动态面部表情描述：HumanOmni 在正确性、细节、上下文、时间和 CIDEr 指标上均优于其他模型。
动作和姿态理解：HumanOmni 在多个动作和姿态理解指标上表现出较高的准确率。

环境设置

推荐环境：Python >=3.10，CUDA >=12.1，PyTorch >=2.2，Transformers >=4.45，Accelerate >=0.30.1。

训练和推理

提供了训练数据和推理脚本的示例。
支持单视频推理，包括视频+音频、仅视频和仅音频模式。

引用

如果本研究对您有所帮助，请引用以下论文：

@misc{zhao2025humanomnilargevisionspeechlanguage, title={HumanOmni: A Large Vision-Speech Language Model for Human-Centric Video Understanding}, author={Jiaxing Zhao and Qize Yang and Yixing Peng and Detao Bai and Shimin Yao and Boyuan Sun and Xiang Chen and Shenghao Fu and Weixuan chen and Xihan Wei and Liefeng Bo}, year={2025}, eprint={2501.15111}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.15111}, }

搜集汇总

数据集介绍

构建方式

HumanOmni数据集的构建方式涵盖了从大量以人类为中心的视频片段中收集数据，进而提供了关于个体行为的丰富信息。具体而言，该数据集由超过240万个人类中心视频片段组成，并提供了超过1400万条视觉预训练的指令数据。此外，还有5万视频片段被手动标注，附带了超过10万条与情感识别、面部描述和特定说话人语音识别相关的指令，用于视觉微调和跨模态交互集成。数据集采用了三个专门针对面部、身体和交互场景的分支，以动态调整融合权重，确保在各种场景中都能提供准确的响应。

特点

HumanOmni数据集的特点在于其全面的多模态处理能力，它不仅包含丰富的视觉数据，还融合了语音信息，实现了音频视觉的协同作用。这使得模型能够对复杂场景进行更全面的理解。数据集中的视频片段均以人类为中心，包含了详细的行为和情感信息，为研究提供了宝贵的资源。此外，数据集的构建考虑了人类行为的多样性，通过不同场景和情感的表达，增加了模型的泛化能力和适应性。

使用方法

使用HumanOmni数据集时，用户可以根据需求选择不同的模态进行训练或推理。数据集提供了详细的安装指南和依赖关系，用户可以通过脚本轻松地设置环境。对于自定义数据集的训练，数据集提供了示例JSON文件格式，方便用户准备训练数据。同时，提供了inference.py脚本，支持单视频的推理，用户可以根据需要选择视频、音频或两者结合的方式进行推理。

背景与挑战

背景概述

HumanOmni是一项创新的研究成果，标志着人中心Omni-模态大型语言模型的诞生。该模型由Jiaxing Zhao等人于2025年提出，旨在通过综合视觉和语音信息，实现对以人为中心场景的深入理解。其核心研究问题是如何在视频理解中融合视觉和语音信息，以实现对人类情感、面部描述和特定说话人语音识别的精准处理。HumanOmni的构建，为相关领域提供了强大的工具，推动了视频理解技术的发展。

当前挑战

在构建HumanOmni数据集的过程中，研究人员面临了多项挑战。首先，如何从大量的视频数据中提取和标注与情感识别、面部描述和说话人语音识别相关的指令，是一大挑战。其次，构建一个能够动态调整融合权重以适应不同输入指令的复杂模型，也提出了算法设计和实现的难题。此外，模型在理解复杂场景中的动作和姿态时，如何保持准确性和鲁棒性，也是需要克服的技术挑战。

常用场景

经典使用场景

HumanOmni数据集作为业界首个面向人类中心场景的全模态大型语言模型，其经典使用场景主要集中于对人类中心视频内容的全面理解。通过对视觉、听觉以及交互等多模态信息的融合处理，它能够对视频中的情感识别、面部描述、特定说话人语音识别等任务进行精准的视觉细化和跨模态交互整合，从而在诸如视频内容分析、人类行为理解等领域发挥重要作用。

实际应用

在实际应用中，HumanOmni数据集可用于开发高级的人机交互系统、智能监控、情感分析工具等。例如，它可以被集成到智能辅助系统中，帮助理解用户的情绪状态和需求，从而提供更加个性化的服务；或者在安全监控领域，用于实时分析和识别异常行为，提升监控系统的智能水平。

衍生相关工作

基于HumanOmni数据集，已经衍生出了一系列相关的研究工作。这些工作不仅包括对模型性能的进一步提升和优化，还涵盖了新的应用场景的探索，如基于HumanOmni的个性化教育辅助系统、健康监测系统等，这些都进一步扩展了HumanOmni数据集的影响力和应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集