XPose

Name: XPose
Creator: 上海交通大学
Published: 2025-12-16 00:03:26
License: 暂无描述

arXiv2025-12-16 更新2025-12-17 收录

下载链接：

https://ryan-w2024.github.io/project/PoseAnything/

下载链接

链接失效反馈

官方服务：

资源简介：

XPose是由上海交通大学团队构建的首个高质量非人类姿态公开数据集，包含5万条姿态-视频配对数据，旨在支持通用姿态引导视频生成研究。该数据集从Koala和UltraVideo原始视频中筛选单主体非人类视频，通过Grounded-SAM2进行主体分割和BlumNet姿态提取，采用严格的质量控制算法确保时空一致性。数据涵盖多样化的运动类型（如行走、飞行）和生物类别（如动物、虚构角色），其细粒度标注为跨物种姿态迁移、动画制作等应用提供了重要基准，解决了现有方法仅支持人类姿态的局限性问题。

XPose is the first high-quality public non-human pose dataset constructed by the research team at Shanghai Jiao Tong University. It contains 50,000 pose-video paired samples, aiming to support research on general pose-guided video generation. The dataset selects single-subject non-human videos from the original Koala and UltraVideo datasets, leverages Grounded-SAM2 for subject segmentation and BlumNet for pose extraction, and employs strict quality control algorithms to ensure spatio-temporal consistency. Covering diverse motion types such as walking and flying, as well as biological categories including animals and fictional characters, its fine-grained annotations provide a critical benchmark for applications like cross-species pose transfer and animation production, addressing the limitation of existing methods that only support human pose-related tasks.

提供机构：

上海交通大学

创建时间：

2025-12-16

原始信息汇总

PoseAnything 数据集概述

数据集基本信息

数据集名称：PoseAnything
核心任务：通用姿态引导视频生成
主要贡献：首个能够处理人类与非人类角色、支持任意骨骼输入的通用姿态引导视频生成框架

关键方法与创新

Part-aware Temporal Coherence Module：将主体划分为不同部分，建立部分对应关系，并通过跨帧对应部分间的交叉注意力实现细粒度的部分级别一致性。
Subject and Camera Motion Decoupled CFG：一种新颖的引导策略，通过将主体运动和相机运动控制信息分别注入CFG的正负锚点，首次在姿态引导视频生成中实现独立的相机运动控制。
XPose数据集：一个高质量公共数据集，包含50,000个非人类姿态-视频对，并配有自动化的标注和过滤流程。

实验与评估

比较方法：
- 人类数据对比：与UniAnimate、Animate-X、MagicPose等最先进方法进行比较。
- 非人类数据对比：与ATI、SG-I2V、Tora等轨迹引导视频生成方法进行比较。
评估结果：
- 在人类数据上，模型在运动连续性、外观一致性和背景稳定性方面表现优异。
- 在非人类数据上，模型在精确的对象姿态控制方面展现出显著优势，而竞争方法难以实现帧级姿态对齐，且在大范围运动合成中容易产生幻觉。

数据资源

演示视频：包含在页面中（demo_video）。
对比案例：
- 人类数据：提供4个测试案例的详细对比。
- 非人类数据：提供11个测试案例的详细对比。

相关链接

arXiv论文：https://arxiv.org/
GitHub仓库：https://github.com/

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，高质量数据集的构建是推动姿态引导视频生成技术发展的基石。XPose数据集的构建采用了精心设计的三阶段流程，首先从Koala和UltraVideo数据集中筛选出包含单一非人主体的视频，利用Qwen-2.5-VL模型进行自动化过滤。随后，通过Grounded-SAM2模型对视频中的主体进行精确分割，并应用一套过滤算法确保掩码序列的时空一致性，例如通过交并比计算来维持帧间主体的连贯性。最后，采用BlumNet从掩码图像中提取骨架信息，并设定严格的阈值以剔除骨架提取不完整的样本，从而确保了数据集中五万对非人姿态-视频数据的高精度与高可用性。

特点

作为首个专注于非人姿态的公开数据集，XPose展现出显著的多样性与丰富性。该数据集涵盖了广泛的非人主体类别，包括动物、卡通角色等多种实体，其骨架片段数量分布从简单到复杂，呈现出良好的层次结构。数据集在运动类型、运动身体部位以及主体类别等多个维度上均具有均衡的分布，这为模型学习通用化的姿态-运动映射关系提供了坚实基础。其高质量的姿态序列得益于严格的自动化标注与过滤流程，确保了姿态信息的准确性以及跨帧的时序连续性，从而能够有效支持面向任意骨架输入的通用视频生成任务的研究与评估。

使用方法

XPose数据集主要服务于通用姿态引导视频生成模型的训练与评估。研究人员可将该数据集中的姿态序列与对应视频作为配对数据，输入至如PoseAnything等生成框架中，以训练模型学习从任意骨架输入到逼真视频内容的映射关系。在评估阶段，该数据集可作为基准测试集，用于量化模型在非人主体上的生成质量、运动对齐精度以及外观一致性等关键指标。此外，数据集的构建管道本身也为从原始视频中自动化提取高质量姿态序列提供了可复现的技术方案，能够促进相关领域在数据构建与算法开发方面的进一步探索。

背景与挑战

背景概述

在视频生成领域，姿态引导的视频生成技术通过明确的姿态序列来控制生成视频中主体的运动，为动画制作、娱乐视频生产等应用提供了精确的运动操控能力。然而，现有方法主要局限于人类姿态的输入，难以泛化至非人类角色，限制了该技术的普适性。为突破这一局限，上海交通大学的研究团队于2025年提出了XPose数据集，作为首个高质量的非人类姿态-视频对公开数据集。该数据集包含五万对样本，旨在支持通用姿态引导的视频生成研究，特别是针对任意骨骼结构的非人类主体。XPose的构建基于Koala和UltraVideo等现有视频资源，通过自动化的姿态提取与过滤流程，确保了姿态序列的准确性与时间连续性。这一数据集的发布为相关领域的研究奠定了重要基础，推动了姿态引导视频生成技术向更广泛实体的扩展。

当前挑战

XPose数据集致力于解决通用姿态引导视频生成中的核心挑战，即如何实现对任意骨骼结构主体的精确运动控制。传统方法通常依赖于人类姿态数据，难以适应非人类角色的多样骨骼形态，导致生成视频中出现运动失真或外观不一致的问题。在数据集构建过程中，研究团队面临了多重挑战：首先，从原始视频中提取高质量且时间连续的非人类姿态序列需要克服主体分割的准确性难题，特别是在复杂背景或动态场景下；其次，确保提取的姿态能够覆盖多样化的非人类类别（如动物、虚构角色等），并保持骨骼结构的完整性，对数据过滤与标注流程提出了较高要求。这些挑战的应对直接关系到数据集的可靠性与泛化能力，进而影响基于该数据集的模型训练效果。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，姿态引导的视频生成技术致力于通过精确的骨骼序列控制生成视频中主体的运动。XPose数据集作为首个专注于非人类姿态的高质量公开数据集，其最经典的使用场景是作为训练与评估通用姿态引导视频生成模型的基准数据源。研究人员利用该数据集包含的5万对非人类姿态-视频序列，训练模型学习从任意骨骼输入到连贯视频内容的映射关系，从而推动模型在多样化主体（如动物、卡通角色、日常物体）上实现精准的运动合成与控制。

解决学术问题

XPose数据集的构建直接回应了当前姿态引导视频生成研究中的一个关键局限：现有方法普遍局限于人类姿态驱动，缺乏处理非人类或任意骨骼结构的能力。该数据集通过提供大规模、高质量的非人类姿态标注，首次系统性地解决了模型泛化性不足的学术难题。它使得研究者能够开发如PoseAnything这类通用框架，实现跨物种、跨形态的精细运动控制，并支持对主体外观一致性与时间连贯性等核心问题的深入探索，从而将可控视频生成的研究范畴从人类中心拓展至更广泛的实体对象。

衍生相关工作

XPose数据集的发布为相关研究领域注入了新的活力，催生了一系列探索通用姿态引导生成的前沿工作。其直接衍生的核心工作PoseAnything框架，首次实现了对任意骨骼输入的兼容，并创新性地提出了部件感知时间一致性模块与主体-相机运动解耦的CFG引导策略。这些技术突破启发了后续研究对更细粒度运动控制、跨模态条件融合以及长序列生成稳定性的深入探索。该数据集也为评估轨迹控制（如TORA、SG-I2V）与草图控制（如SketchVideo）等替代方案在非人类主体上的性能提供了关键基准，推动了可控视频生成技术向更通用、更鲁棒的方向演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集