MuSS
收藏数据集概述
MuSS 是一个大规模电影数据集与评估基准,专注于多镜头视频生成和主体到视频生成任务,旨在解决单镜头设置中难以暴露的三个问题:缺乏真实的电影叙事逻辑、全局字幕与局部镜头对齐的冲突、以及主体到视频模型中的复制粘贴捷径。
数据集规模与来源
- 来源:超过 3,000 部电影。
- 规模:包含超过 30,000 个专业字幕的多镜头剪辑片段,总时长超过 1,000 小时的高质量视频内容。
数据集的两种设置
- 复杂电影叙事:聚焦蒙太奇、镜头转换和多角色叙事。
- 主体中心叙事:聚焦在无关联的镜头和视角中保持同一主体的一致性。
数据集构建流程
- 将原始电影素材转化为高质量物理镜头,并生成连贯的字幕。
- 从无关联的镜头上下文中采样参考主体,构建跨镜头的主体到视频(S2V)配对。
评估基准:电影叙事基准
该基准在真实的多镜头叙事条件下评估生成的视频,结合了镜头边界解析、专家感知模型和基于大型多模态模型的视觉逻辑评估。
| 赛道 | 评估目标 | 评估指标 |
|---|---|---|
| 赛道 1:叙事效果 | 镜头级对齐、转换精度、场景连续性、视觉逻辑 | Txt.Align、Trans.Dev、Scene.Con、Con.Gap、Scene.Logic、Casting.Logic、Act.Logic、Spat.Logic |
| 赛道 2:主体一致性 | 跨镜头身份保持、主体定位、运动强度、抗复制粘贴行为 | Subj.Recall、Ref-Sub.Con、Inter-Sub.Con、Act.Str、ACP-Var、CP-Rate |
其中 ACP-Var 用于测量参考图像与生成帧之间的姿态和结构多样性,明确惩罚刚性的二维参考复制。
代码仓库结构
当前仓库仅发布数据构造代码,基准实现暂未包含。
MuSS/ ├── download/ # 从整理好的年度YouTube列表获取原始视频 ├── main-pipeline/ # 多镜头视频策划与渐进式字幕生成 ├── s2v-pipeline/ # 跨镜头主体提取与S2V配对构建 ├── assets/ # README中使用的图表 ├── CITATION.cff └── README.md
引用信息
bibtex @article{zhang2026muss, title = {MuSS: A Large-Scale Dataset and Cinematic Narrative Benchmark for Multi-Shot Subject-to-Video Generation}, author = {Zhang, Haojie and Wu, Di and Liu, Bingyan and Zhong, Linjie and Wei, Yuancheng and Ye, Xingsong and Liu, Nanqing and Liang, Yaling}, journal = {arXiv preprint arXiv:2604.23789}, year = {2026} }
许可说明
代码和数据集的许可协议正在最终确定中,在重新分发或商业使用前请检查相关章节。




