RealisDance-Val

Name: RealisDance-Val
Creator: 阿里巴巴集团DAMO学院，浙江大学，湖畔实验室，南方科技大学，深圳大学
Published: 2025-04-21 17:09:21
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://thefoxofsky.github.io/project_pages/RealisDance-DiT/index

下载链接

链接失效反馈

官方服务：

资源简介：

RealisDance-Val数据集是由阿里巴巴集团DAMO学院等机构收集的，包含100个视频及其相应条件。该数据集涵盖了各种角色、场景、罕见姿势、光照条件和角色与物体的交互等多样化且具有挑战性的场景，专门设计用于评估生成模型在开放场景中的性能。

The RealisDance-Val dataset was collected by Alibaba Group's DAMO Academy and other institutions, containing 100 videos and their corresponding conditions. This dataset covers diverse and challenging scenarios including various characters, scenes, rare poses, lighting conditions, and interactions between characters and objects, and is specifically designed to evaluate the performance of generative models in open scenarios.

提供机构：

阿里巴巴集团DAMO学院，浙江大学，湖畔实验室，南方科技大学，深圳大学

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

RealisDance-Val数据集的构建基于对开放场景中多样化挑战的全面考量，涵盖了罕见姿态、风格化角色、角色-物体交互、复杂光照条件以及动态场景等多个维度。该数据集通过从互联网收集100个高质量视频，并配以相应的条件标注，确保了数据的多样性和挑战性。构建过程中特别注重了场景的真实性和复杂性，以弥补现有基准数据集如TikTok和UBC时尚视频数据集的不足，从而为可控角色动画任务提供了一个更具挑战性的测试平台。

特点

RealisDance-Val数据集的核心特点在于其多样性和真实性。它不仅包含了常规的角色动画场景，还特别设计了罕见姿态、风格化角色、复杂光照和角色-物体交互等高难度场景，以全面评估生成模型在开放环境中的表现。此外，数据集中的视频分辨率较高（576×1024或1024×576），并保持了原始宽高比，进一步增强了数据的真实感和适用性。这些特点使得RealisDance-Val成为评估可控角色动画模型性能的理想选择。

使用方法

RealisDance-Val数据集的使用方法主要围绕其在可控角色动画任务中的评估功能展开。研究人员可以通过该数据集测试模型在罕见姿态、复杂光照等挑战性场景下的生成能力。具体使用时，需将参考图像设置为视频中最具信息量的帧，并按照原始宽高比生成预测结果。评估指标推荐使用VBench-I2V，以避免低层次指标（如SSIM、PSNR）在开放场景中的局限性。此外，数据集还可用于对比不同模型在角色一致性、动态场景处理等方面的性能差异。

背景与挑战

背景概述

RealisDance-Val数据集由阿里巴巴达摩院、湖畔实验室及多所高校联合团队于2025年4月发布，旨在推动开放场景下的可控角色动画研究。该数据集作为论文《RealisDance-DiT》的核心评估基准，聚焦影视制作、虚拟数字人等领域的角色动作生成难题，尤其针对罕见姿态、风格化角色、角色-物体交互等复杂场景。其构建基于Wan-2.1视频基础模型，通过创新的低噪声预热训练和大批量少迭代策略，显著提升了生成质量。该数据集的推出弥补了TikTok、UBC时尚数据集在开放场景评估上的不足，为领域内首次系统性地整合光照变化、动态场景等多维挑战的测试集。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，需解决开放场景中角色动画的物理合理性（如物体交互动力学）、跨风格泛化性（如二次元角色逼真渲染）及复杂光照适应性等核心难题；在构建过程中，面临罕见姿态样本采集困难、多模态条件（SMPL-CS/DWPose/HaMeR三维姿态）对齐精度要求高，以及视频数据在时序连贯性与分辨率（576×1024）间的平衡问题。此外，为确保评估公正性，需严格规避测试数据在训练集中的泄露风险，这对百万级原始视频的清洗提出了极高要求。

常用场景

经典使用场景

在可控角色动画领域，RealisDance-Val数据集作为评估基准，被广泛应用于测试生成模型在开放场景下的鲁棒性。该数据集包含100个涵盖罕见姿态、风格化角色、复杂光照等挑战性场景的视频，为研究者提供了验证模型在真实世界条件下表现的标准平台。其多模态条件输入与精细化标注特性，使其成为衡量角色一致性、运动自然度等关键指标的首选工具。

解决学术问题

该数据集有效解决了可控角色动画研究中三大核心问题：罕见姿态下的运动失真、风格化角色的特征保持、以及角色-物体交互的物理合理性。通过提供多样化测试场景，它突破了传统数据集在开放环境泛化性上的局限，为验证基于强大基础模型的轻量化改进策略提供了实验基础，推动了从复杂旁路网络到简约架构设计的范式转变。

衍生相关工作

基于该数据集验证的RealisDance-DiT框架，衍生出低噪声预热训练、大批量少迭代微调等创新方法。相关技术被OmniHuman、HumanDiT等后续工作吸收改进，推动形成了以基础模型能力挖掘为核心的研究方向，彻底改变了传统依赖复杂参考网络的设计思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集