HumanAction-32K

Name: HumanAction-32K
Creator: 北京大学
Published: 2025-03-12 16:30:29
License: 暂无描述

arXiv2025-03-12 更新2025-03-14 收录

下载链接：

https://github.com/PKU-YuanGroup/SwapAnyone

下载链接

链接失效反馈

官方服务：

资源简介：

HumanAction-32K数据集是由北京大学创建的，包含各种人类动作的常见场景，如舞蹈、体育、街头视频和日常博客等，适用于视频身体交换任务。该数据集覆盖了32000个视频，旨在为视频身体交换任务提供丰富的控制信息和真实的身体运动数据，以促进视频身体交换技术的发展。

The HumanAction-32K dataset was created by Peking University. It covers common scenarios of various human actions including dance, sports, street footage, daily vlogs and other related types, and is designed for video body swapping tasks. This dataset contains 32,000 video clips, aiming to provide rich control information and realistic human body motion data for video body swapping tasks so as to promote the development of video body swapping technologies.

提供机构：

北京大学

创建时间：

2025-03-12

搜集汇总

数据集介绍

构建方式

HumanAction-32K数据集的构建基于从互联网收集的各类视频，包括舞蹈、运动、街头视频和日常vlog等，涵盖了人类动作的多种场景。首先，使用PySceneDetect将视频分割成剪辑，排除长度小于3秒的视频，并只保留竖屏视频。然后，利用YOLO跟踪视频中的人物，并识别出现频率最高的人物ID。接下来，使用OpenPose和DWpose库从帧中提取关键点，并保留包含至少75%帧数的视频。最终，数据集包含了各种人类动作的丰富视频内容，适合视频人体交换任务的研究。

特点

HumanAction-32K数据集的特点在于其多样性，涵盖了舞蹈、运动、街头视频和日常vlog等多种场景，能够满足视频人体交换任务对多样化动作的需求。此外，数据集中的视频经过严格的筛选和处理，确保了视频质量的一致性和关键点的准确性，为研究人员提供了可靠的数据基础。同时，数据集还包含了与人体交换任务相关的身份特征和运动信息，有助于模型在训练过程中更好地理解和学习人体动作的规律。

使用方法

HumanAction-32K数据集的使用方法包括但不限于：1. 作为视频人体交换任务的训练数据，帮助模型学习和理解人体动作的规律和特征。2. 用于评估视频人体交换模型在不同场景下的性能和效果。3. 为研究人员提供参考和灵感，推动视频人体交换技术的发展。4. 可以用于开发相关应用程序，如虚拟换装、动作捕捉等。

背景与挑战

背景概述

HumanAction-32K数据集是在视频身体交换领域的一项重要研究成果，由赵诚舒、葛云扬、程新华等研究人员于2025年3月12日发表。该数据集旨在为视频身体交换任务提供丰富的数据支持，涵盖了舞蹈、体育、街头视频和日常博客等多种场景中的人类动作视频。研究人员提出了一个端到端模型SwapAnyone，该模型通过参考保真度和运动控制，将视频身体交换视为视频修复任务，实现了身份一致性、运动一致性和环境一致性。SwapAnyone模型在多个维度上实现了最先进的性能，并在多个开源和闭源模型中取得了领先地位。

当前挑战

视频身体交换领域面临的挑战包括：1) 所解决的领域问题：如何实现视频身体交换的端到端优化，以解决帧间亮度差异、遮挡关系混乱和身体与背景之间的明显分离等问题。2) 构建过程中所遇到的挑战：如何确保生成的视频在身份、运动和环境方面的一致性，同时保持视觉和谐，尤其是在亮度方面。为了应对这些挑战，SwapAnyone模型采用了EnvHarmony策略，该策略能够在训练过程中忽略参考亮度的干扰，并专注于提取身份特征，从而实现环境一致性，特别是亮度一致性。

常用场景

经典使用场景

在视频编辑和制作中，HumanAction-32K数据集提供了丰富多样的人类动作视频，为视频换身任务提供了训练素材。该数据集涵盖了舞蹈、体育、街头场景和日常vlog等多种类型，使得模型能够学习并适应不同环境和背景下的动作。例如，在电影制作中，可以利用该数据集训练的模型，将演员的动作替换为替身的动作，从而实现危险或高难度场景的拍摄。在交互式娱乐领域，用户可以通过提供参考的身体图像和目标视频，利用模型将自身动作实时合成到目标视频中，实现虚拟角色的扮演和互动。此外，该数据集还可以用于视频内容审核和篡改检测，通过分析视频中的动作特征，识别和防止虚假视频的传播。

衍生相关工作

HumanAction-32K数据集的引入，促进了视频换身任务的研究和应用，衍生出许多相关的工作。例如，SwapAnyone模型利用该数据集训练，实现了高度一致和逼真的视频换身效果。此外，该数据集还可以用于其他视频生成任务，如视频修复、视频风格迁移等。通过与其他数据集的结合，可以进一步扩展视频生成技术的应用范围，推动视频生成技术的发展和应用。

数据集最近研究