OmniDance

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/GD-ML/OmniDance

下载链接

链接失效反馈

官方服务：

资源简介：

OmniDance 是一个用于多模态舞蹈视频生成的大规模数据集，基于互联网舞蹈视频构建，旨在支持文本-图像到视频（TI2V）、音乐-图像到视频（MI2V）以及文本-音乐-图像到视频（MTI2V）等研究任务。数据集专注于单人舞蹈视频，包含丰富的编舞内容和稳定的视觉表现。数据集由视频和文本两部分组成，视频部分包含舞蹈片段，文本部分则提供与视频配对的编舞感知文本注释，描述身体动态、编舞内容、表现力、镜头呈现和整体视觉外观等关键属性。数据集规模在10万到100万样本之间，经过严格的过滤和标注流程，包括参考清晰度验证、舞蹈视频验证、单人舞蹈过滤、场景稳定性过滤和编舞感知文本标注等步骤。尽管数据集经过精心筛选，但仍可能存在一些偏见和噪声，如女性表演者较多、样本主要来自亚洲在线舞蹈社区等。该数据集仅限研究使用，使用时需注意隐私、肖像权、人口统计偏见和身份敏感风险等问题。

OmniDance is a large-scale dataset for multimodal dance video generation, constructed based on Internet dance videos. It aims to support research tasks including Text-to-Image-to-Video (TI2V), Music-to-Image-to-Video (MI2V), and Text-Music-Image-to-Video (MTI2V). The dataset focuses on single-person dance videos, featuring rich choreography content and stable visual performance. It consists of two components: video and text. The video component contains dance clips, while the text component provides choreography-aware text annotations paired with the corresponding videos, describing key attributes such as body dynamics, choreography content, expressiveness, shot presentation, and overall visual appearance. The dataset has a scale ranging from 100,000 to 1,000,000 samples, and has undergone strict filtering and annotation procedures, including reference clarity verification, dance video validation, single-person dance filtering, scene stability filtering, and choreography-aware text annotation. Despite careful screening, the dataset may still contain certain biases and noises, such as a higher proportion of female performers and samples mainly sourced from Asian online dance communities. This dataset is for research use only. Users should pay attention to issues including privacy, portrait rights, demographic biases, and identity-sensitive risks during usage.

创建时间：

2026-04-20

原始信息汇总

💃 OmniDance 数据集概述

数据集基本信息

数据集名称: OmniDance
语言: 英语
许可证: 其他（研究用途）
数据规模: 100K < 样本数 < 1M

任务类型

OmniDance 是一个面向多模态舞蹈视频生成的大规模数据集，支持以下任务：

TI2V: 文本 + 参考图像 → 舞蹈视频
MI2V: 音乐 + 参考图像 → 舞蹈视频
MTI2V: 文本 + 音乐 + 参考图像 → 舞蹈视频

此外，还支持舞蹈动作理解、音乐-运动对齐、编舞条件生成、身份一致的人体视频合成等相关任务。

数据内容

数据集中每个样本包含一个舞蹈视频及其对应的文本描述：

`Opensource_Data/video/`

存放舞蹈视频片段，用于训练或评估

`Opensource_Data/text/`

存放编舞感知的文本标注，描述舞蹈视频的关键属性，包括：
- 身体动态
- 编舞内容
- 表现力
- 镜头呈现
- 整体视觉外观

数据集特点

大规模: 从互联网收集的大规模舞蹈视频集合
编舞感知文本: 提供与编舞相关的文本标注，比通用视频描述提供更有用的监督信息
单人舞蹈: 专注于单人舞蹈表演
音乐条件生成: 适用于音乐条件驱动的舞蹈生成
数据筛选: 经过舞蹈有效性、参考清晰度、场景稳定性等多轮过滤

数据构建流程

数据集通过渐进式过滤和标注流程构建，主要阶段包括：

参考清晰度验证
舞蹈视频验证
单人舞者过滤
场景稳定性过滤
编舞感知文本标注

局限性

作为网络收集的数据集，OmniDance 可能存在以下偏差和噪声：

女性表演者多于男性表演者
许多样本来自亚洲在线舞蹈社区
部分视频可能存在运动模糊、压缩伪影或局部视觉缺陷

使用说明

用途限制: 仅限研究用途
注意事项:
- 关注隐私和人像相关的问题
- 注意人口统计和地区偏差
- 防范身份敏感的滥用风险
- 遵守当地法规和源平台政策

搜集汇总

数据集介绍

构建方式

OmniDance数据集构建于大规模互联网舞蹈视频资源之上，采用了一套渐进式过滤与标注流水线。该流程依次实施参考清晰度验证、舞蹈有效性筛选、单人舞者精准提取、场景稳定性过滤，最终引入基于编舞知识的文本标注。通过这一多层次质检机制，系统性地剔除了多舞者混叠、画面抖动及语义模糊的样本，确保了视频片段与文本描述在舞蹈内容、表现力及视觉呈现上的高度一致性，为多模态舞蹈视频生成提供了高质量的数据基础。

特点

该数据集核心聚焦于单人舞者表演场景，每个样本均包含一段舞蹈视频及其对应的编舞感知文本描述。文本注释深入涵盖了身体动态、编舞内容、表情传达、镜头呈现及整体视觉外观等关键维度，相较于通用视频描述，这些注释能提供更具舞蹈特异性的监督信号。此外，数据集支持文本-图像到视频、音乐-图像到视频以及文本-音乐-图像到视频等多种生成任务，充分体现了其在多模态条件控制下的灵活性与综合性，显著区别于仅依赖单一模态的数据资源。

使用方法

使用者可直接访问其双模块文件结构，视频与文本注释分别存储于video与text目录下，便于按需加载与配对。该数据集专为研究用途设计，适用于舞蹈动作理解、音乐与动作对齐、编舞条件生成及身份一致性人体视频合成等前沿课题。研究人员可根据实际任务需求，以参考图像为基础，结合文本提示、音乐信号或两者兼用，作为条件输入驱动舞蹈视频的生成，从而在各自的研究框架内灵活探索多模态信息融合对舞蹈视频质量的提升作用。

背景与挑战

背景概述

OmniDance数据集由匿名研究团队于2026年欧洲计算机视觉大会（ECCV）上提出，旨在解决多模态驱动舞蹈视频生成中的关键瓶颈。随着文本、图像、音乐等多模态信息在视频生成领域的深度融合，现有数据集（如UBC Dance或AIST++）普遍存在规模有限、模态单一、缺乏精细化编排注释等问题。OmniDance从互联网大规模采集舞蹈视频，聚焦单人舞者表演，并引入编排感知的文本标注，涵盖身体动态、编排内容、表现力、镜头呈现及视觉外观等维度。该数据集支持文本-图像至视频、音乐-图像至视频以及三者联合驱动的生成任务，为多模态舞蹈生成研究提供了高质量、系统性的数据基础，显著推动了该领域在语义一致性、动作可控性和身份保持等方面的发展。

当前挑战

OmniDance致力于解决多模态舞蹈视频生成中的核心挑战，其面临的难点首先体现在领域问题的复杂性上：舞蹈动作天然具有时序连续性与多模态关联性，如何从文本、音乐和图像中精准解码并生成连贯、自然且符合编排逻辑的动态视频，仍是当前生成模型的严峻考验；此外，现有生成方法在保持舞者身份一致性、动作与音乐节拍精确对齐以及避免视觉伪影方面仍存显著不足。从构建过程来看，OmniDance亦面临诸多现实挑战：互联网采集数据不可避免地存在性别和地域分布不均（如女性表演者居多、大量样本源自亚洲社区）；视频中运动模糊、压缩伪影等视觉缺陷难以完全剔除；同时，大规模数据下确保单人舞者筛选、场景稳定性过滤和编排语义标注的准确性与一致性，也对数据处理流水线提出了极高的质量控制要求。

常用场景

经典使用场景

OmniDance数据集在舞蹈视频生成领域扮演着基石角色，其最经典的使用场景聚焦于多模态条件驱动的舞蹈视频合成。研究者可依托该数据集，利用文本描述、参考图像与背景音乐等多种模态信息，精准生成与编舞内容高度一致的舞蹈视频片段。无论是从文字到舞蹈的语义映射，还是从音乐节拍到身体律动的时空对齐，OmniDance都为跨模态生成任务提供了结构化的训练与评测基准，尤其适用于单舞者、强编舞、场景稳定的视频生成场景。

实际应用

在实际应用层面，OmniDance为舞蹈教育、虚拟偶像创作、在线编舞辅助及娱乐内容生产提供了坚实的数据基础。舞蹈爱好者可以借助文本或音乐输入快速生成个性化的舞蹈视频；虚拟现实与游戏行业能利用该数据集训练出更具表现力的数字人舞蹈能力；社交媒体平台则可实现用户驱动的音乐舞蹈内容自动生成，降低创作门槛。此外，该数据集还支持身份一致的舞蹈视频合成，为人机交互和数字媒体艺术中的动态角色控制开辟了新的可能性。

衍生相关工作

OmniDance的发布催生了一系列开创性的衍生研究工作。在方法论上，研究者基于该数据集发展了编舞感知的舞蹈视频生成框架，探索了文本-音乐-图像联合驱动的统一生成范式；在分析层面，衍生工作聚焦于舞蹈运动理解中的时空建模与音乐-动作对齐技术，提出了更精细的编舞语义表示方法；在评估方面，该数据集推动了舞蹈视频生成专用评测指标的建立，如编舞一致性得分和视觉动态保真度度量。这些工作共同拓展了多模态视频生成的研究边界，为后续的通用人体运动合成奠定了领域专属的数据与算法基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集