KungFu-Fiesta (KFF)

Name: KungFu-Fiesta (KFF)
Creator: 中国科学院·深圳先进技术研究院; 中国电信云科技有限公司
Published: 2026-01-05 21:34:17
License: 暂无描述

arXiv2026-01-05 更新2026-01-07 收录

下载链接：

https://huggingface.co/datasets/MingfuYAN/KungFu-Fiesta

下载链接

链接失效反馈

官方服务：

资源简介：

KungFu-Fiesta (KFF)是由中国科学院·深圳先进技术研究院团队首创的武术格斗视频数据集，采用Unity游戏物理引擎构建。该数据集包含500段10秒/60帧的高清视频，涵盖20种场景、100余种双人对战动作及数百个角色ID，每条数据均包含战斗视频、角色参考图像和姿态序列。通过精心设计的3D角色建模与动作捕捉技术，该数据集解决了传统单人舞蹈数据在多人交互动作上的局限性，为武术格斗视频生成任务提供了多样化的训练基础，主要应用于AIGC视频生成、虚拟角色交互等领域。

KungFu-Fiesta (KFF) is the pioneering martial arts fighting video dataset developed by the team from Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences. It is constructed using the Unity game physics engine. This dataset consists of 500 high-definition video clips, each 10 seconds long with 60 frames, covering 20 scenarios, over 100 types of two-player combat moves, and hundreds of unique character IDs. Each data sample contains combat videos, character reference images, and pose sequences. Through carefully designed 3D character modeling and motion capture technologies, this dataset overcomes the limitations of traditional single-person dance datasets in multi-person interactive movements, providing a diverse training foundation for martial arts fighting video generation tasks. It is primarily applied in fields such as AIGC video generation and virtual character interaction.

提供机构：

中国科学院·深圳先进技术研究院; 中国电信云科技有限公司

创建时间：

2026-01-05

原始信息汇总

KungFu-Fiesta (KFF) 数据集概述

基本信息

数据集名称: KungFu-Fiesta (KFF)
发布平台: Hugging Face
许可证: CC BY-NC 4.0 (Creative Commons Attribution-NonCommercial 4.0 International)
相关论文: MagicFight: Personalized Martial Arts Combat Video Generation (ACM MM 2024)
论文链接: https://arxiv.org/abs/2601.02107
任务类别: 图像到视频、文本到视频
语言: 英语
标签: 视频、姿态、dwpose、人体运动、功夫、武术、双人、视频生成、扩散模型
数据规模: n<1K

数据集简介

KungFu-Fiesta 是首个为个性化双人格斗视频生成任务设计的武术格斗视频数据集。该数据集旨在解决双人武术格斗场景中的身份混淆、复杂运动中的异常肢体以及格斗序列中的动作不匹配等挑战。数据集使用 Unity 游戏物理引擎生成高度逼真的 3D 角色模型和模拟环境中的动作动画。

数据集统计

本次发布为部分数据集，完整数据集包含 500+ 个视频，涉及 12 个场景、12 种动作类型和 12 种角色类型。

属性	格斗视频	DWPose 序列
总数	293	293
分辨率	1728 × 1080	832 × 512
帧率	60 FPS	60 FPS
时长	2-13.5秒	2-13.5秒

数据结构

KungFu-Fiesta/ ├── README.md ├── data/ │ ├── videos/ │ │ ├── metadata.csv │ │ ├── 001.mp4 │ │ └── ... │ └── dwpose/ │ ├── 001.mp4 │ └── ...

每个样本包含

格斗视频: 双人武术格斗视频
DWPose 序列: 对应的姿态骨架视频（包含身体、手部和脚部关键点）

使用方法

python from datasets import load_dataset

加载数据集

dataset = load_dataset("MingfuYAN/KungFu-Fiesta")

访问元数据

for item in dataset[train]: video_path = item[file_name] dwpose_path = item[dwpose_file_name]

元数据字段

字段	描述
`file_name`	视频文件的相对路径
`dwpose_file_name`	DWPose 骨架视频的相对路径

引用

如果使用本数据集，请引用： bibtex @inproceedings{huang2024magicfight, title={Magicfight: Personalized martial arts combat video generation}, author={Huang, Jiancheng and Yan, Mingfu and Chen, Songyan and Huang, Yi and Chen, Shifeng}, booktitle={Proceedings of the 32nd ACM International Conference on Multimedia}, pages={10833--10842}, year={2024} }

联系方式

如有关于数据集的问题，请联系：

Jiancheng Huang: jc.huang@siat.ac.cn
Mingfu Yan: mfyan99@gmail.com

搜集汇总

数据集介绍

构建方式

在个性化视频生成领域，双人交互数据的稀缺性长期制约着相关模型的发展。为填补这一空白，KungFu-Fiesta (KFF) 数据集通过先进的游戏物理引擎 Unity 精心构建。研究团队设计了涵盖不同身份、体型与服装的数百个三维角色模型，并编排了超过一百种成对的武术格斗动作组合。在二十余种多样化场景中，以多种拍摄角度渲染生成了超过五百段高质量视频，每段视频时长约十秒、帧率为六十帧，确保了动作的连贯性与物理真实性。每个数据样本均包含格斗视频、两位角色的参考图像以及对应的姿态序列，为模型训练提供了丰富的多模态条件。

使用方法

该数据集主要用于训练和评估面向个性化武术格斗视频生成的扩散模型。在使用时，模型通常以两位角色的参考图像、一段描述双人动作的姿态序列作为条件输入，进而生成保持身份一致性与动作连贯性的格斗视频。研究人员可基于该数据集进行模型微调，特别适用于研究多主体交互生成中的身份混淆、肢体异常与动作失配等核心挑战。数据集中提供的标准化姿态序列与参考图像对，也为构建公平的模型重建与开放集生成评测基准提供了可靠支持。此外，数据集支持与时尚走秀等其它双人视频数据进行混合训练，以进一步提升生成视频的视觉清晰度与纹理真实感。

背景与挑战

背景概述

在个性化视频生成技术快速发展的背景下，中国科学院深圳先进技术研究院的研究团队于2024年提出了KungFu-Fiesta（KFF）数据集，旨在填补双人交互式视频生成领域的空白。该数据集聚焦于个性化武术格斗视频生成这一新兴任务，由研究团队利用Unity物理引擎精心构建，包含了多样化的三维角色、武术动作与场景。KFF的创立标志着视频生成研究从单人舞蹈场景向复杂多人互动场景的重要拓展，为探索人物身份一致性保持、复杂动作序列生成以及动态交互建模等核心问题提供了首个专用基准，对推动交互式视频内容生成领域的发展具有奠基性意义。

当前挑战

KungFu-Fiesta数据集所应对的核心领域挑战在于实现高质量的双人个性化武术格斗视频生成。这一任务超越了传统的单人舞蹈生成，需同时解决两个独立角色的身份一致性维持、复杂武术动作的精准控制以及两人间动态交互的真实感刻画等难题。在数据集构建过程中，研究团队面临多重挑战：首先，需在虚拟环境中设计并合成涵盖上百种角色身份与配对格斗动作的大规模、高质量视频数据，以确保数据的多样性与物理真实性；其次，必须为每个样本精确提供双参考身份图像、姿态序列等多模态条件，以支撑后续模型的训练与评估；此外，如何从现有单人舞蹈生成模型的知识出发，有效迁移并适应双人互动这一全新且复杂的任务域，亦是构建过程中需要克服的关键技术障碍。

常用场景

经典使用场景

在个性化视频生成领域，KungFu-Fiesta数据集主要应用于双人武术格斗视频的生成与评估。该数据集通过Unity物理引擎精心构建，包含了多样化的3D角色、武术动作与场景，为研究双人交互动作的生成模型提供了高质量的基准数据。其经典使用场景是作为MagicFight等模型的训练与测试基础，用于验证模型在保持角色身份一致性和动作连贯性方面的性能，特别是在处理复杂肢体交互、快速攻击动作时，能够有效评估生成视频的物理合理性与视觉保真度。

解决学术问题

KungFu-Fiesta数据集针对当前视频生成研究中的关键空白，即缺乏高质量的双人交互动作数据，系统性地解决了多个学术难题。它首次为个性化武术格斗视频生成任务提供了专用数据集，克服了单人生成模型在双人场景中出现的身份混淆、肢体异常和动作失配等问题。通过提供丰富的角色身份、动作类型和背景变体，该数据集支持模型学习复杂的空间分布与时间动态，为探索多主体交互生成中的特征解耦、运动建模和身份保持等核心问题奠定了数据基础。

实际应用

在实际应用层面，KungFu-Fiesta数据集为影视特效、游戏内容生成和虚拟现实训练等产业提供了技术支撑。基于该数据集训练的模型能够根据用户提供的角色形象和姿态序列，自动生成逼真的武术对战视频，显著降低了动作捕捉与后期制作成本。在娱乐产业中，可用于快速生成定制化的武打片段；在教育与训练领域，则能模拟真实格斗场景，为武术教学或安全培训提供可视化素材。其背景定制功能进一步扩展了在广告、短视频创作等场景的适用性。

数据集最近研究