OpenHumanVid

github2024-12-13 更新2024-12-14 收录

下载链接：

https://github.com/fudan-generative-vision/OpenHumanVid

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHumanVid是一个大规模高质量的以人为中心的视频数据集，其特点是精确和详细的字幕，涵盖人类外观和运动状态，以及补充的人类运动条件，包括骨骼序列和语音音频。

OpenHumanVid is a large-scale, high-quality human-centric video dataset, which features accurate and detailed captions covering human appearance and motion states, as well as supplementary human motion-related information including skeletal sequences and speech audio.

创建时间：

2024-11-27

原始信息汇总

OpenHumanVid 数据集概述

简介

OpenHumanVid 是一个大规模且高质量的以人为中心的视频数据集，具有精确且详细的描述，涵盖了人类的外貌和运动状态，并附带了补充的人类运动条件，包括骨骼序列和语音音频。

数据集特点

视频-描述对：数据集包含视频及其对应的详细描述，描述涵盖了人物的外貌、表情和动作。
补充数据：包括骨骼序列和语音音频，用于增强视频生成任务。
质量过滤：通过解码、裁剪、分割等预处理步骤，并基于亮度、模糊、美学、运动和技术指标进行质量过滤，确保数据的高质量。
描述生成：使用 MiniCPM、CogVLM 和 Llama 生成结构化描述，并通过 BLIP2 投票进行精炼，确保描述与视觉细节（如外貌、表情和姿势）的精确匹配。

数据集下载

样本数量：13.2M
视频时长：16.7 khrs
存储空间：~6.05 TB
下载链接：链接

许可证

数据集的视频样本来自公开可用的数据集。用户必须遵循许可证使用这些视频样本。为防止数据集的滥用，下载前需提交信息进行审核和批准。

引用

如果该数据集对您的研究有用，请引用以下论文：

bibtex @article{li2024openhumanvid, title={OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation}, author={Li, Hui and Xu, Mingwang and Zhan, Yun and Mu, Shan and Li, Jiaye and Cheng, Kaihui and Chen, Yuxuan and Chen, Tan and Ye, Mao and Wang, Jingdong and others}, journal={arXiv preprint arXiv:2412.00115}, year={2024} }

搜集汇总

数据集介绍

构建方式

OpenHumanVid数据集通过一系列精细的预处理步骤构建而成。原始视频首先经过解码、裁剪和分割处理，随后基于亮度、模糊度、美学、运动及技术指标进行质量筛选。此外，数据集还提取了人体骨骼数据和语音音频，并利用MiniCPM、CogVLM和Llama生成结构化描述，通过BLIP2投票进一步优化，确保描述与视觉细节如外观、表情和姿态高度一致，从而实现细粒度的精确性。

使用方法

OpenHumanVid数据集适用于多种以人为中心的视频生成和分析任务。用户可以通过访问官方提供的下载链接，填写相关信息并经过审核后获取数据集。在使用过程中，用户需遵循数据集的许可协议，确保合法合规。数据集的多样化数据类型和高质量描述使其在视频生成、行为分析、情感识别等领域具有广泛的应用潜力，为相关研究提供了坚实的基础。

背景与挑战

背景概述

OpenHumanVid是由复旦大学生成视觉团队主导开发的一个大规模高质量以人为中心的视频数据集。该数据集的核心研究问题在于通过精确且详细的描述，涵盖人类外观和运动状态，以及补充的人类运动条件（如骨骼序列和语音音频），来增强以人为中心的视频生成任务。该数据集的创建旨在推动视频生成领域的研究，特别是针对人类行为和互动的复杂性进行建模。主要研究人员包括Hui Li、Mingwang Xu、Yun Zhan等，他们的工作对视频生成和理解领域产生了深远影响。

当前挑战

OpenHumanVid数据集在构建过程中面临多项挑战。首先，视频数据的采集和预处理需要通过解码、裁剪和分割等步骤，确保视频质量符合要求。其次，生成精确的描述性字幕需要结合多种高级自然语言处理模型，如MiniCPM、CogVLM和Llama，并通过BLIP2投票进行优化，以确保字幕与视觉细节的高度一致性。此外，数据集的存储和处理需求巨大，达到6.05 TB，这对计算资源和存储管理提出了高要求。最后，确保数据集的合法使用和防止滥用，需要严格的访问控制和用户信息审核机制。

常用场景

经典使用场景

OpenHumanVid数据集以其大规模和高品质的人类中心视频数据而著称，尤其适用于增强人类视频生成任务。该数据集通过精确且详细的描述，涵盖了人类的外貌和动作状态，并辅以骨骼序列和语音音频等补充信息。这些特性使得OpenHumanVid成为研究人类行为理解、视频生成模型训练以及多模态数据融合的经典数据集。

解决学术问题

OpenHumanVid数据集解决了在人类中心视频生成领域中，传统数据集在细节描述和多模态信息融合方面的不足。通过提供精确的描述和高品质的视频数据，该数据集有助于提升视频生成模型的准确性和多样性，推动了多模态学习和人类行为分析的研究进展。

实际应用

在实际应用中，OpenHumanVid数据集可广泛应用于影视制作、虚拟现实、人机交互等领域。例如，在影视制作中，该数据集可以用于训练生成模型，以自动生成高质量的人类动作和表情；在虚拟现实中，可以用于创建更加逼真的人类角色和互动场景。

数据集最近研究