DEMIX
收藏arXiv2025-06-10 更新2025-06-11 收录
下载链接:
https://hjzheng.net/projects/MTV/
下载链接
链接失效反馈官方服务:
资源简介:
DEMIX数据集是专门为训练分离音频同步视频生成模型而设计的,包含高质量的电影视频和分离的音频轨道。数据集由来自CelebV-HQ、MovieBench、Condensed Movies、Short-Films 20K和YouTube的影片组成,经过筛选和标注,最终形成了包含392K视频片段的数据集,总时长为1.2K小时。DEMIX数据集被分为五个重叠的子集,以支持多阶段训练,并适用于多种视频生成场景。
The DEMIX dataset is specifically designed for training video generation models that synchronize with separated audio tracks, containing high-quality cinematic videos and separated audio tracks. It is compiled from video sources including CelebV-HQ, MovieBench, Condensed Movies, Short-Films 20K and YouTube. After rigorous screening and annotation, it ultimately forms a dataset with 392K video clips and a total duration of 1.2 thousand hours. The DEMIX dataset is divided into five overlapping subsets to support multi-stage training and is applicable to a wide range of video generation scenarios.
提供机构:
北京智源人工智能研究院
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
DEMIX数据集的构建过程体现了严谨的多模态数据处理流程。该数据集从三个主要来源采集了原始视频素材:CelebV-HQ的高质量谈话头部视频、MovieBench等平台的电影级视频资源,以及YouTube上的相关影视内容。通过PySceneDetect工具进行单镜头分割后,采用Audiobox-aesthetics算法对音频质量进行筛选。为确保音频分离的可靠性,创新性地实施了双轨分离验证策略,对比MVSEP和Spleeter两种工具的分离结果。针对电影视频特有的声画同步需求,数据集通过YOLO人物检测、Scribe说话人日志和TalkNet主动说话人检测构建了精细的声画关联验证机制。最终将数据划分为五个重叠子集,支持从基础面部表情到复杂视觉氛围的多阶段训练。
特点
DEMIX数据集最显著的特点是开创性地采用了分离式音频控制架构。数据集包含39.2万个视频片段,总时长达到1200小时,每个片段都配有分离的语音、音效和音乐轨道。这种独特的结构使得模型能够分别精确控制唇部运动、事件时序和视觉氛围。数据集的五个重叠子集(基础面部、单一角色、多角色互动、声音事件和视觉氛围)形成了渐进式学习路径,支持从局部特征到全局语义的层次化训练。与现有数据集相比,DEMIX首次实现了对电影级视频中人物、物体和视听元素的全面覆盖,并通过专业的声音分离技术解决了复杂音频场景下的同步难题。
使用方法
使用DEMIX数据集时,建议采用渐进式的多阶段训练策略。首先利用基础面子集训练唇部同步能力,随后通过单角色子集学习人体姿态和场景表现,再过渡到多角色交互场景。声音事件子集专门用于训练音画事件同步,而视觉氛围子集则培养整体美学把控能力。数据集配套的结构化文本模板将场景描述、人物特征和说话状态等信息标准化,为多模态对齐提供明确指导。在模型架构设计上,推荐采用类似论文中提出的多流时序控制网络(MST-ControlNet),分别处理不同音频轨道,并通过间隔特征注入和整体风格注入机制实现精准的视听同步控制。
背景与挑战
背景概述
DEMIX数据集由北京人工智能研究院、北京大学、北京邮电大学等机构的研究团队于2025年提出,旨在解决音视频同步生成领域的关键问题。该数据集包含39.2万条高质量影视片段(总时长1200小时),创新性地采用音频分离技术将原始音轨解构为语音、音效和音乐三个独立控制流。作为多模态生成领域的重要基础设施,DEMIX通过结构化设计的五重叠子集支持渐进式训练策略,为MTV框架实现唇形同步、事件时序和视觉氛围的精准控制提供了数据基础,显著推动了音视频跨模态生成技术的发展。
当前挑战
DEMIX数据集面临的挑战主要体现在两个方面:领域问题层面,现有方法难以处理复杂音频类型下的高质量视频生成,特别是在语音唇动同步(如对话场景)、音效事件时序(如物体碰撞瞬间)和音乐视觉氛围(如情绪渲染)的跨模态精准对齐上存在显著差距;构建过程层面,音频分离的可靠性(需处理MVSEP与Spleeter双模型的输出一致性)、影视片段的声音-画面逻辑校验(需结合YOLO人物检测与TalkNet主动说话者分析)、以及多阶段训练的数据子集划分(需平衡五个子集的语义重叠与特征独立性)构成了主要技术难点。
常用场景
经典使用场景
DEMIX数据集在音频同步视频生成领域具有广泛的应用价值,尤其在处理复杂音频类型时表现出色。该数据集通过将音频分离为语音、音效和音乐轨道,实现了对唇部运动、事件时序和视觉氛围的精确控制。这种多轨分离的方法使得生成的视频在语义上与音频高度对齐,适用于电影制作、历史录音可视化以及播客内容增强等多种场景。
实际应用
在实际应用中,DEMIX数据集被广泛用于电影制作、虚拟现实和增强现实领域。例如,电影制作人可以利用该数据集生成与音频高度同步的视觉效果,从而提升观众的沉浸感。此外,该数据集还可用于历史录音的可视化,使得古老的音频内容能够以现代视频形式呈现,为文化遗产保护提供了新的技术手段。
衍生相关工作
DEMIX数据集衍生了一系列经典研究工作,特别是在多模态生成模型领域。例如,MTV框架利用该数据集实现了音频同步视频生成的多流控制,显著提升了生成视频的质量和同步精度。此外,该数据集还启发了多个后续研究,如基于扩散模型的音频-视频联合生成方法,进一步推动了跨模态生成技术的发展。
以上内容由遇见数据集搜集并总结生成



