MuSS

github2026-05-09 更新2026-05-11 收录

下载链接：

https://github.com/zhang-haojie/MuSS

下载链接

链接失效反馈

官方服务：

资源简介：

MuSS是一个大规模的电影数据集和基准测试，专注于多镜头视频生成和主题到视频生成。它包含来自3000多部电影的30,000多个专业标注的多镜头剪辑，总计超过1,000小时的高质量视频内容。数据集分为两个互补的数据设置：复杂电影叙事和主题中心叙事。

MuSS is a large-scale cinematic dataset and benchmark focused on multi-shot video generation and topic-to-video generation. It contains over 30,000 professionally annotated multi-shot clips sourced from more than 3,000 films, totaling more than 1,000 hours of high-quality video content. The dataset is divided into two complementary data configurations: complex cinematic narrative and topic-centric narrative.

创建时间：

2026-04-25

原始信息汇总

数据集概述

MuSS 是一个大规模电影数据集与评估基准，专注于多镜头视频生成和主体到视频生成任务，旨在解决单镜头设置中难以暴露的三个问题：缺乏真实的电影叙事逻辑、全局字幕与局部镜头对齐的冲突、以及主体到视频模型中的复制粘贴捷径。

数据集规模与来源

来源：超过 3,000 部电影。
规模：包含超过 30,000 个专业字幕的多镜头剪辑片段，总时长超过 1,000 小时的高质量视频内容。

数据集的两种设置

复杂电影叙事：聚焦蒙太奇、镜头转换和多角色叙事。
主体中心叙事：聚焦在无关联的镜头和视角中保持同一主体的一致性。

数据集构建流程

将原始电影素材转化为高质量物理镜头，并生成连贯的字幕。
从无关联的镜头上下文中采样参考主体，构建跨镜头的主体到视频（S2V）配对。

评估基准：电影叙事基准

该基准在真实的多镜头叙事条件下评估生成的视频，结合了镜头边界解析、专家感知模型和基于大型多模态模型的视觉逻辑评估。

赛道	评估目标	评估指标
赛道 1：叙事效果	镜头级对齐、转换精度、场景连续性、视觉逻辑	`Txt.Align`、`Trans.Dev`、`Scene.Con`、`Con.Gap`、`Scene.Logic`、`Casting.Logic`、`Act.Logic`、`Spat.Logic`
赛道 2：主体一致性	跨镜头身份保持、主体定位、运动强度、抗复制粘贴行为	`Subj.Recall`、`Ref-Sub.Con`、`Inter-Sub.Con`、`Act.Str`、`ACP-Var`、`CP-Rate`

其中 ACP-Var 用于测量参考图像与生成帧之间的姿态和结构多样性，明确惩罚刚性的二维参考复制。

代码仓库结构

当前仓库仅发布数据构造代码，基准实现暂未包含。

MuSS/ ├── download/ # 从整理好的年度YouTube列表获取原始视频 ├── main-pipeline/ # 多镜头视频策划与渐进式字幕生成 ├── s2v-pipeline/ # 跨镜头主体提取与S2V配对构建 ├── assets/ # README中使用的图表 ├── CITATION.cff └── README.md

引用信息

bibtex @article{zhang2026muss, title = {MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation}, author = {Zhang, Haojie and Wu, Di and Liu, Bingyan and Zhong, Linjie and Wei, Yuancheng and Ye, Xingsong and Liu, Nanqing and Liang, Yaling}, journal = {arXiv preprint arXiv:2604.23789}, year = {2026} }

许可说明

代码和数据集的许可协议正在最终确定中，在重新分发或商业使用前请检查相关章节。

搜集汇总

数据集介绍

构建方式

MuSS数据集源自超过3000部电影，通过复杂而精细的流水线构建而成。首先，流水线将原始电影素材转化为高质量且带有连贯字幕的物理镜头。随后，通过从不相交的镜头上下文中采样参考主体，构建跨镜头的主题到视频生成对。这一过程涵盖了两种互补的数据设置：复杂电影叙事设置聚焦于蒙太奇、镜头转换和多角色故事情节；而主题中心叙事设置则专注于在不同镜头和视角间保持同一主体的一致性。整个流水线确保了数据集的高质量与叙事逻辑的完整性。

特点

MuSS数据集拥有超过30000个专业字幕的多镜头剪辑片段，总时长超过1000小时，规模宏大。其独特之处在于解决了单镜头设置中难以暴露的三个局限性：缺乏真实的电影叙事逻辑、全局字幕与局部镜头对齐的冲突、以及主题到视频生成模型中的复制粘贴捷径。数据集具备双重叙事结构，能同时捕捉复杂的镜头转换与主体一致性，为多镜头视频生成提供了前所未有的真实场景与挑战。

使用方法

MuSS数据集的使用主要通过其发布的代码仓库实现。用户首先通过下载模块从年份组织的YouTube列表中获取原始视频。随后，利用主流水线进行多镜头视频的策划和渐进式字幕生成。最后，通过跨镜头主题提取与S2V对构建流水线生成最终数据。仓库提供了详细的模块级指南，帮助用户按步骤操作，并可灵活应用于视频生成模型的训练与基准测试。当前代码侧重于数据处理部分，基准实现将在后续版本中单独发布。

背景与挑战

背景概述

MuSS数据集是由Haojie Zhang、Di Wu等研究者于2026年创建的大规模电影叙事数据集，旨在突破单镜头视频生成在叙事逻辑、全局描述与局部镜头对齐冲突以及主体复制粘贴捷径等三方面的局限。该数据集从超过3000部电影中提取三万余个专业描述的多镜头片段，总计逾千小时的高质量视频内容，为多镜头主体到视频生成提供两大互补任务：复杂电影叙事（聚焦蒙太奇与多角色叙事）和主体中心叙事（保持跨镜头主体一致性）。其电影叙事基准结合了镜头边界解析、专家感知模型与大语言模型视觉逻辑评估，推动了视频生成从单镜头向真实电影叙事情境的演进。

当前挑战

MuSS所面对的挑战涵盖领域问题与构建过程。领域层面，现有单镜头生成模型难以处理真实电影叙事中的镜头切换、场景变化与多角色逻辑连贯性，且主体到视频模型常因依赖参考帧的二维复制而缺乏视角与姿态多样性。构建过程需从原始电影素材中提取高质量物理镜头并生成连贯描述，同时构建跨镜头主体对需解决身份保持与视角变异间的平衡；此外，基准评估需设计针对叙事有效性（如镜头对齐精度、场景连续性）和主体一致性（如抗复制粘贴能力）的细粒度指标，以揭示模型在复杂叙事下的真实表现。

常用场景

经典使用场景

MuSS数据集为多镜头视频生成与主体到视频生成（Subject-to-Video Generation）提供了大规模的影视级训练与评测基准。其经典使用场景包括两种互补的叙事模式：一是复杂影视叙事（Complex Cinematic Narrative），聚焦于蒙太奇、镜头切换与多角色叙事流的构建，要求模型理解镜头间的逻辑衔接与场景演变；二是主体中心叙事（Subject-Centric Narrative），强调在不同视角与无关镜头中保持同一主体的身份一致性，从而避免生成模型常出现的“复制粘贴”捷径。研究人员可基于该数据集训练模型生成具有真实电影叙事逻辑的多镜头视频序列，并通过配套的影视叙事基准（Cinematic Narrative Benchmark）对生成的视频在镜头对齐、过渡精度、场景连续性及主体一致性等维度进行系统性评估。

解决学术问题

MuSS数据集针对当前视频生成领域的三大学术难题提供了解决方案。首先，现有单镜头数据集缺乏真实的电影叙事逻辑，导致生成视频无法呈现连贯的蒙太奇与镜头转换；MuSS通过从3000余部电影中提取超过3万条配有专业字幕的多镜头片段，填补了这一空白。其次，全局字幕与局部镜头对齐之间的冲突长期困扰着多镜头生成任务，该数据集通过渐进式字幕生成管道实现了对每个物理镜头的精准描述。最后，在主体到视频生成任务中，模型常依赖从参考图像直接复制粘贴的捷径来维持身份一致性，而非真正理解三维结构；MuSS通过构建跨镜头主体对并引入抗复制粘贴指标（ACP-Var），有效促进了对主体三维结构和姿态多样性的建模，推动了视频生成领域向更真实、更可靠的叙事能力迈进。

衍生相关工作

MuSS数据集的发布催生了多项衍生研究工作。其提出的影视叙事基准为后续视频生成模型提供了标准化的评估框架，推动了针对镜头过渡精度与逻辑连贯性的专用模型设计。基于该数据集的主体一致性数据，研究者开发了更先进的跨镜头身份保持方法，这些方法结合了三维人体姿态估计与动态纹理映射技术。在抗复制粘贴特性方面，相关工作探索了基于结构变分正则化的生成策略，有效提升了生成视频中主体的姿态多样性。此外，该数据集还启发了多模态叙事理解的研究，促使学者利用其丰富的电影字幕数据训练能够理解镜头间因果关系与角色互动的视觉-语言模型，从而进一步推动了视频生成与语义理解两大领域的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集