GD-ML/OmniDance

Name: GD-ML/OmniDance
Creator: GD-ML
Published: 2026-04-26 03:31:38
License: 暂无描述

Hugging Face2026-04-26 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/GD-ML/OmniDance

下载链接

链接失效反馈

官方服务：

资源简介：

OmniDance是一个大规模的多模态舞蹈视频生成数据集，从互联网舞蹈视频中构建并筛选，用于研究文本-图像到视频（TI2V）、音乐-图像到视频（MI2V）以及文本-音乐-图像到视频（MTI2V）等任务。数据集专注于单舞者的舞蹈视频，包含强编舞内容、稳定的视觉外观和结构化的文本监督。数据集包含舞蹈视频片段和对应的编舞感知文本注释，描述了身体动态、编舞内容、表现力、摄像机呈现和整体视觉外观等关键属性。数据集通过渐进式过滤和注释流程构建，提高了多模态舞蹈视频生成的语义精度和数据质量。然而，作为网络收集的数据集，OmniDance可能存在一些偏见和噪声，如女性表演者多于男性、样本主要来自亚洲在线舞蹈社区等。数据集仅限研究使用，需注意隐私、肖像权、人口统计和地区偏见等问题。

OmniDance is a large-scale dataset for multimodal dance video generation, built from Internet dance videos and curated for research on Text-Image-to-Video (TI2V), Music-Image-to-Video (MI2V), and Text-Music-Image-to-Video (MTI2V). The dataset focuses on single-dancer dance videos with strong choreography content, stable visual appearance, and structured text supervision. It includes dance video clips and paired choreography-aware text annotations describing key properties such as body dynamics, choreographic content, expressiveness, camera presentation, and overall visual appearance. The dataset is constructed with a progressive filtering and annotation pipeline tailored for dance generation, improving semantic precision and data quality. However, as a web-collected dataset, OmniDance may contain some bias and noise, such as a higher prevalence of female performers and samples primarily from Asian online dance communities. The dataset is released for research purposes only, with attention to privacy, portrait-related concerns, demographic and regional bias, and compliance with local regulations.

提供机构：

GD-ML

搜集汇总

数据集介绍

构建方式

OmniDance数据集源自互联网公开的舞蹈视频，经精心构建以服务于多模态舞蹈视频生成研究。其数据处理流程采用渐进式筛选与标注管线：首先，通过参考清晰度验证确保图像质量；继而对舞蹈内容进行精准识别，过滤无效片段；随后执行单舞者过滤，排除多人场景干扰；再经场景稳定性检测，剔除镜头剧烈晃动或背景杂乱的内容；最后，结合编舞知识生成结构化的文本标注，涵盖肢体动态、编舞内涵、表现力、镜头呈现及整体视觉外观等维度。这一系统性管线显著提升了语义精度与数据质量，为多模态生成任务提供了坚实的数据基础。

使用方法

OmniDance适用于多种多模态舞蹈视频生成任务的训练与评估。研究者可直接加载开源数据目录中的视频片段与配对文本注释，构建文本+参考图像至视频、音乐+参考图像至视频或文本+音乐+参考图像至视频等模型。建议将视频数据作为视觉特征输入，文本注释作为条件编码，音频信号则通过波形或频谱表征融入生成框架。需注意，该数据集仅供学术研究使用，应用时应关注隐私保护、人口偏差及合规性问题，并正确引用原始论文以示出处。

背景与挑战

背景概述

舞蹈视频生成是人工智能与多媒体交叉领域的研究热点，其核心在于融合文本、图像与音乐等模态信息，生成具有协调编舞动作与视觉表现力的动态内容。OmniDance数据集由匿名研究团队构建，并于2026年欧洲计算机视觉会议（ECCV）发布，旨在推动多模态舞蹈视频生成研究。该数据集从互联网大规模收集单舞者表演视频，通过严谨的过滤流水线确保内容有效性、参考清晰度与场景稳定性，并结合编舞感知的文本标注，覆盖身体动态、编舞结构、表现力及镜头呈现等维度。其提出解决了现有数据集在模态覆盖度、语义监督粒度及舞蹈动作对齐方面的不足，为文本-图像-视频（TI2V）、音乐-图像-视频（MI2V）及文本-音乐-图像-视频（MTI2V）任务提供了高质量基准，显著促进了多条件舞蹈生成与人类运动理解领域的发展。

当前挑战

OmniDance数据集旨在应对多模态舞蹈视频生成领域的核心挑战：如何从文本、音乐与参考图像等异构条件中，生成时空连贯、编舞协调且外观稳定的单舞者视频。该问题涉及条件一致性、动作自然性及视觉质量等多目标优化，现有方法常面临模态融合困难与运动抖动等瓶颈。在构建过程中，研究者面临多重挑战：首先，互联网视频质量参差不齐，需设计渐进式过滤流水线剔除运动模糊、压缩伪影及场景突变样本，同时平衡数据规模与纯净度；其次，单舞者筛选与场景稳定性过滤需依赖计算机视觉模型，易受背景变化与遮挡影响；此外，编舞感知文本标注要求自动生成细粒度描述，涵盖身体动力学与表现力等抽象特征，对标注系统提出较高精度要求。这些挑战促使数据与算法协同迭代，以提升生成模型的鲁棒性与泛化能力。

常用场景

经典使用场景

OmniDance数据集专为多模态舞蹈视频生成而构建，其经典使用场景涵盖了文本-图像到视频（TI2V）、音乐-图像到视频（MI2V）以及文本-音乐-图像到视频（MTI2V）等核心任务。研究人员可通过该数据集，利用舞者的参考图像与文本描述或音乐节奏作为条件输入，驱动生成连贯且富有表现力的单人舞蹈视频。数据集中精心设计的编舞感知文本标注，为舞蹈动作的语义理解与视觉呈现提供了精准的监督信号，使得模型能够学习到身体动态、编舞内容、表现力及镜头语言之间的复杂映射关系，从而生成高质量、高保真的舞蹈视频内容。

解决学术问题

在学术界，OmniDance数据集针对性地解决了多模态舞蹈视频生成中数据稀缺与语义不一致的长期难题。此前，缺乏大规模、高质量且带有结构化标注的舞蹈视频数据，导致模型难以实现文本、音乐与舞蹈动作的精准对齐。该数据集通过严谨的过滤与标注流水线，提供了丰富的编舞感知文本描述，支持研究人员探索舞蹈动作理解、音乐-动作对齐、编舞条件生成以及身份一致的人类视频合成等前沿课题。其意义在于为多模态生成任务树立了新的基准，推动了舞蹈视频生成从简单条件控制向复杂语义融合的范式演进。

实际应用

在实际应用层面，OmniDance数据集为舞蹈创作、虚拟偶像生成及人机交互等场景提供了坚实的数据基础。例如，在数字娱乐领域，内容创作者可借助训练于该数据集上的模型，根据一段音乐或文字脚本快速生成符合编舞逻辑的舞蹈视频，大幅降低专业编舞与动画制作的门槛。在虚拟现实与元宇宙中，该数据集赋能了数字人角色的实时舞蹈驱动，使得虚拟形象能够根据用户输入的指令或音乐节奏即兴舞动，增强了沉浸式体验的互动性与趣味性。此外，其在在线教育、运动分析等领域的延伸应用亦展现广阔前景。

数据集最近研究