DEMIX

Name: DEMIX
Creator: 北京智源人工智能研究院
Published: 2025-06-10 01:59:42
License: 暂无描述

arXiv2025-06-10 更新2025-06-11 收录

下载链接：

https://hjzheng.net/projects/MTV/

下载链接

链接失效反馈

官方服务：

资源简介：

DEMIX数据集是专门为训练分离音频同步视频生成模型而设计的，包含高质量的电影视频和分离的音频轨道。数据集由来自CelebV-HQ、MovieBench、Condensed Movies、Short-Films 20K和YouTube的影片组成，经过筛选和标注，最终形成了包含392K视频片段的数据集，总时长为1.2K小时。DEMIX数据集被分为五个重叠的子集，以支持多阶段训练，并适用于多种视频生成场景。

The DEMIX dataset is specifically designed for training video generation models that synchronize with separated audio tracks, containing high-quality cinematic videos and separated audio tracks. It is compiled from video sources including CelebV-HQ, MovieBench, Condensed Movies, Short-Films 20K and YouTube. After rigorous screening and annotation, it ultimately forms a dataset with 392K video clips and a total duration of 1.2 thousand hours. The DEMIX dataset is divided into five overlapping subsets to support multi-stage training and is applicable to a wide range of video generation scenarios.

提供机构：

北京智源人工智能研究院

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

DEMIX数据集的构建过程体现了严谨的多模态数据处理流程。该数据集从三个主要来源采集了原始视频素材：CelebV-HQ的高质量谈话头部视频、MovieBench等平台的电影级视频资源，以及YouTube上的相关影视内容。通过PySceneDetect工具进行单镜头分割后，采用Audiobox-aesthetics算法对音频质量进行筛选。为确保音频分离的可靠性，创新性地实施了双轨分离验证策略，对比MVSEP和Spleeter两种工具的分离结果。针对电影视频特有的声画同步需求，数据集通过YOLO人物检测、Scribe说话人日志和TalkNet主动说话人检测构建了精细的声画关联验证机制。最终将数据划分为五个重叠子集，支持从基础面部表情到复杂视觉氛围的多阶段训练。

特点

DEMIX数据集最显著的特点是开创性地采用了分离式音频控制架构。数据集包含39.2万个视频片段，总时长达到1200小时，每个片段都配有分离的语音、音效和音乐轨道。这种独特的结构使得模型能够分别精确控制唇部运动、事件时序和视觉氛围。数据集的五个重叠子集（基础面部、单一角色、多角色互动、声音事件和视觉氛围）形成了渐进式学习路径，支持从局部特征到全局语义的层次化训练。与现有数据集相比，DEMIX首次实现了对电影级视频中人物、物体和视听元素的全面覆盖，并通过专业的声音分离技术解决了复杂音频场景下的同步难题。

使用方法

使用DEMIX数据集时，建议采用渐进式的多阶段训练策略。首先利用基础面子集训练唇部同步能力，随后通过单角色子集学习人体姿态和场景表现，再过渡到多角色交互场景。声音事件子集专门用于训练音画事件同步，而视觉氛围子集则培养整体美学把控能力。数据集配套的结构化文本模板将场景描述、人物特征和说话状态等信息标准化，为多模态对齐提供明确指导。在模型架构设计上，推荐采用类似论文中提出的多流时序控制网络（MST-ControlNet），分别处理不同音频轨道，并通过间隔特征注入和整体风格注入机制实现精准的视听同步控制。

背景与挑战

背景概述

DEMIX数据集由北京人工智能研究院、北京大学、北京邮电大学等机构的研究团队于2025年提出，旨在解决音视频同步生成领域的关键问题。该数据集包含39.2万条高质量影视片段（总时长1200小时），创新性地采用音频分离技术将原始音轨解构为语音、音效和音乐三个独立控制流。作为多模态生成领域的重要基础设施，DEMIX通过结构化设计的五重叠子集支持渐进式训练策略，为MTV框架实现唇形同步、事件时序和视觉氛围的精准控制提供了数据基础，显著推动了音视频跨模态生成技术的发展。

当前挑战

DEMIX数据集面临的挑战主要体现在两个方面：领域问题层面，现有方法难以处理复杂音频类型下的高质量视频生成，特别是在语音唇动同步（如对话场景）、音效事件时序（如物体碰撞瞬间）和音乐视觉氛围（如情绪渲染）的跨模态精准对齐上存在显著差距；构建过程层面，音频分离的可靠性（需处理MVSEP与Spleeter双模型的输出一致性）、影视片段的声音-画面逻辑校验（需结合YOLO人物检测与TalkNet主动说话者分析）、以及多阶段训练的数据子集划分（需平衡五个子集的语义重叠与特征独立性）构成了主要技术难点。

常用场景

经典使用场景

DEMIX数据集在音频同步视频生成领域具有广泛的应用价值，尤其在处理复杂音频类型时表现出色。该数据集通过将音频分离为语音、音效和音乐轨道，实现了对唇部运动、事件时序和视觉氛围的精确控制。这种多轨分离的方法使得生成的视频在语义上与音频高度对齐，适用于电影制作、历史录音可视化以及播客内容增强等多种场景。

实际应用

在实际应用中，DEMIX数据集被广泛用于电影制作、虚拟现实和增强现实领域。例如，电影制作人可以利用该数据集生成与音频高度同步的视觉效果，从而提升观众的沉浸感。此外，该数据集还可用于历史录音的可视化，使得古老的音频内容能够以现代视频形式呈现，为文化遗产保护提供了新的技术手段。

衍生相关工作

DEMIX数据集衍生了一系列经典研究工作，特别是在多模态生成模型领域。例如，MTV框架利用该数据集实现了音频同步视频生成的多流控制，显著提升了生成视频的质量和同步精度。此外，该数据集还启发了多个后续研究，如基于扩散模型的音频-视频联合生成方法，进一步推动了跨模态生成技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集