PairFS-4K, HumanRob-300, TogetherVideoBench

Name: PairFS-4K, HumanRob-300, TogetherVideoBench
Creator: 清华大学, 北京师范大学-香港浸会大学联合国际学院, 卡内基梅隆大学, 北京大学, 上海人工智能实验室, 中国科学技术大学, 南京大学
Published: 2025-05-24 00:37:14
License: 暂无描述

arXiv2025-05-24 更新2025-05-27 收录

下载链接：

https://DanceTog.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍的数据集PairFS-4K包含26小时的两人滑冰视频，拥有7000多个独特的ID。HumanRob-300数据集是一个小时的类人机器人交互数据集，用于快速跨域迁移。TogetherVideoBench是一个包含三个轨道的基准测试，围绕DanceTogEval-100测试套件，涵盖舞蹈、拳击、摔跤、瑜伽和花样滑冰等多种活动。这些数据集的创建旨在为可控视频生成提供大规模训练和评估的数据集，以解决多人在复杂交互场景下的身份保持和动作一致性等问题。

The dataset PairFS-4K introduced in this paper contains 26 hours of two-person figure skating videos with over 7,000 unique IDs. The HumanRob-300 dataset is a one-hour humanoid robot interaction dataset designed for rapid cross-domain transfer. TogetherVideoBench is a benchmark with three tracks, centered on the DanceTogEval-100 test suite, covering diverse activities including dancing, boxing, wrestling, yoga, and figure skating. These datasets are developed to provide large-scale training and evaluation datasets for controllable video generation, aiming to address issues such as identity preservation and action consistency in complex multi-person interactive scenarios.

提供机构：

清华大学, 北京师范大学-香港浸会大学联合国际学院, 卡内基梅隆大学, 北京大学, 上海人工智能实验室, 中国科学技术大学, 南京大学

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

PairFS-4K、HumanRob-300和TogetherVideoBench数据集的构建采用了先进的单目RGB视频处理流程，结合了YOLOv8x目标检测和OSNet-based ReID跟踪技术，确保了多人物交互场景下的精准身份追踪。通过SAMURAI和DWPose工具生成高质量的人物掩膜和133点姿态标注，并经过自动与人工双重过滤以保证数据质量。数据集涵盖了花样滑冰、人机交互等多种复杂场景，其中PairFS-4K包含26小时的双人滑冰视频，HumanRob-300则专注于1小时的人机交互数据，为多身份视频生成任务提供了丰富的训练与评估资源。

特点

该数据集的核心特点在于其多模态控制信号的设计，包括独立的人物姿态序列和掩膜序列，有效解决了多人物交互中的身份漂移和外观融合问题。PairFS-4K作为首个大规模双人花样滑冰数据集，覆盖7000余个独特身份；HumanRob-300则填补了人机交互视频数据的空白。TogetherVideoBench通过三轨评估体系（身份一致性、交互连贯性、视频质量）提供标准化测试环境，其DanceTogEval-100测试集包含100段多样化双人互动视频，为算法性能验证提供了全面基准。

使用方法

数据集的使用需结合DanceTogether框架的三大模块：MultiFace Encoder提取身份特征，MaskPoseAdapter融合姿态与掩膜信号，Video Diffusion Backbone生成视频。输入单张参考图像及独立的人物姿态-掩膜序列，模型可输出长时序、高保真的交互视频。评估阶段需调用TogetherVideoBench的标准化指标（如HOTA、MPJPE-2D、FVD等），通过统一的数据处理流程提取人物姿态、掩膜等特征进行定量分析。跨领域应用时，可通过HumanRob-300微调实现人机交互视频生成，展现框架的强泛化能力。

背景与挑战

背景概述

DanceTogether数据集由清华大学等机构的研究团队于2025年提出，旨在解决可控视频生成（CVG）领域中的多角色交互视频生成难题。该数据集包含PairFS-4K、HumanRob-300和TogetherVideoBench三个子集，专注于从单张参考图像和独立姿态-掩模序列生成长时间、高保真的多角色交互视频。其核心创新在于通过MaskPoseAdapter实现身份与动作的持久绑定，突破了传统方法在身份漂移和外观渗漏方面的局限。该数据集首次将CVG从单角色编排扩展到可组合控制的多角色交互，对数字内容生产、仿真和具身智能研究具有重要推动作用。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题层面，需解决多角色身份一致性保持、复杂交互时空连贯性建模以及噪声控制信号鲁棒性等核心问题；构建过程层面，需克服大规模双人互动数据稀缺、单目RGB视频中姿态与掩模的精确提取、以及跨场景身份多样性保障等难题。具体包括：1) 角色位置交换时的身份混淆；2) 遮挡和运动模糊导致的跟踪失效；3) 交互细节（如握手、托举）的物理合理性建模；4) 26小时双人花样滑冰视频(PairFS-4K)的标注一致性保障。

常用场景

经典使用场景

在计算机视觉领域，PairFS-4K、HumanRob-300和TogetherVideoBench数据集被广泛应用于多人交互视频生成的研究。这些数据集特别适用于需要身份保持和动作控制的复杂场景，如双人舞蹈、拳击、摔跤和花样滑冰等。通过提供高质量的参考图像和独立的姿势-掩模序列，这些数据集为生成具有交互细节和身份一致性的视频提供了坚实基础。

实际应用

在实际应用中，这些数据集为电影制作、数字人交互和具身人工智能等领域提供了重要支持。例如，在电影制作中，可以生成高质量的双人舞蹈或战斗场景；在数字人交互中，可以实现逼真的虚拟角色互动；在具身人工智能中，可以模拟人机交互场景，为机器人控制提供训练数据。

衍生相关工作

基于这些数据集，衍生了许多经典工作，如DanceTogether框架，该框架通过融合稳定的跟踪掩模和语义丰富的姿势线索，实现了身份与动作的精确对齐。此外，数据集还支持了HumanRob-300的微调工作，展示了在跨域任务中的广泛泛化能力。这些工作为可控视频生成领域开辟了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集