RawCuts, CuratedCuts
收藏arXiv2025-08-12 更新2025-08-13 收录
下载链接:
https://vchitect.github.io/Cut2Next-project/
下载链接
链接失效反馈官方服务:
资源简介:
Cut2Next是一个用于生成电影级连贯镜头的数据集,包含RawCuts和CuratedCuts两个子集。RawCuts是一个大规模的数据集,包含超过20万对相邻镜头,用于基础模型学习视觉转换。CuratedCuts是从RawCuts中精心挑选出的高质量子集,包含数千对镜头,展示了强烈的电影连贯性原则和专业编辑技术。数据集使用分层提示注释方案进行标注,以捕获镜头间的关系和每个镜头的细节。
Cut2Next is a dataset for generating cinematically coherent shots, which includes two subsets: RawCuts and CuratedCuts. RawCuts is a large-scale dataset containing over 200,000 pairs of adjacent shots, intended for foundational models to learn visual transitions. CuratedCuts is a high-quality subset meticulously curated from RawCuts, comprising thousands of shot pairs that embody strong cinematic coherence principles and professional editing techniques. The dataset is annotated via a hierarchical prompt annotation scheme to capture the relational connections between shots and the fine-grained details of each individual shot.
提供机构:
香港中文大学, 上海人工智能实验室, 南洋理工大学S-Lab
创建时间:
2025-08-12
搜集汇总
数据集介绍

构建方式
RawCuts和CuratedCuts数据集的构建采用了严谨的两阶段流程。首先,RawCuts作为大规模基础数据集,通过自动化流程从MovieNet视频中提取高质量关键帧:经过720p分辨率调整、黑边裁剪后,采用TransNetV2进行镜头分割,并基于美学评分(MUSIQ)、运动评分(VMAF)及NSFW过滤等多重质量控制筛选相邻帧对,最终形成包含20万样本的初级数据集。随后通过专业影视分析人工精选具有显著电影级连续性的镜头对构建CuratedCuts,特别关注对话镜头、情绪表达等专业剪辑模式,形成精炼的微调数据集。整个流程配备分层提示标注系统,通过Gemini-2.0自动生成关系提示(描述镜头间叙事关联)和独立提示(记录单镜头视觉细节与摄影属性),为模型提供结构化语义指导。
特点
该数据集体系最显著的特点是层级化设计带来的互补优势。RawCuts以规模制胜,覆盖200k+多样化的视觉过渡模式,为模型提供广泛的视觉语法基础;而CuratedCuts则以质量见长,专注专业剪辑师认可的电影级连续性范例,包含精准的镜头反向匹配、环境细节呼应等高级特征。二者均配备创新的分层标注体系:关系提示精准捕捉镜头间的叙事逻辑(如正反打镜头的对话关系),独立提示则用结构化语言描述角色外观、摄影机位等16项电影参数。这种设计使数据兼具视觉广度和专业深度,特别适合训练模型理解电影语言中的复杂时空关系。
使用方法
使用该数据集需遵循其层级化特性。基础训练阶段应在RawCuts上进行,利用其大规模特性建立通用的视觉过渡能力;进阶阶段切换至CuratedCuts微调,强化电影级连续性生成。模型输入需同步处理两种提示:将关系提示嵌入以指导镜头间逻辑(如“正反打镜头需保持角色视线匹配”),独立提示则控制单镜头内容生成。评估时建议采用论文配套的CutBench基准,通过CLIP-I/DINO相似度衡量视觉连续性,结合人类评估检验剪辑模式符合度。对于生成任务,推荐采用论文提出的CACI机制实现噪声/无噪声视觉标记的差异化处理,并配合HAM注意力掩码确保提示信号的精准路由。
背景与挑战
背景概述
RawCuts和CuratedCuts数据集由香港中文大学、上海人工智能实验室和南洋理工大学S-Lab的研究团队于2025年提出,旨在推动多镜头视频生成领域的发展。该数据集的核心研究问题是解决现有方法在生成连续镜头时缺乏专业剪辑模式和严格电影连续性的局限。通过构建大规模的基础数据集(RawCuts)和精心筛选的高质量子集(CuratedCuts),研究团队为下一代镜头生成(NSG)任务提供了数据支持,显著提升了视频生成在叙事流畅性和电影语言表达方面的能力。
当前挑战
该数据集面临的挑战主要体现在两个方面:首先,在领域问题层面,下一代镜头生成任务要求模型在保持角色和环境一致性的同时,准确执行复杂的剪辑模式(如正反打镜头、切入切出等),这对多维度连续性的建模提出了极高要求;其次,在构建过程中,研究团队需要从原始视频中提取高质量的关键帧对,并设计分层提示标注方案(包括关系提示和个体提示),以捕捉镜头间的语义关联和电影细节,这一过程涉及大规模数据处理和精细的人工筛选工作。
常用场景
经典使用场景
RawCuts和CuratedCuts数据集在影视叙事生成领域具有重要应用价值,尤其在多镜头视频生成任务中。这些数据集通过提供大量相邻镜头对,为模型学习视觉过渡和镜头间连续性提供了丰富素材。在经典使用场景中,研究人员利用这些数据集训练模型生成具有严格电影连续性和专业编辑模式的后续镜头,如对话场景中的正反打镜头、强调细节的切入/切出镜头以及提供外部语境的切离镜头。
实际应用
在实际应用中,这些数据集显著提升了影视预制作流程的效率。导演和剪辑师可以利用基于这些数据集训练的模型,快速生成符合特定编辑模式的镜头备选方案,大幅减少实拍成本。特别是在需要复杂镜头序列的场景,如对话戏份的正反打镜头、动作场景的多角度镜头等,该数据集支持的生成技术能够保持角色外观、空间关系和环境细节的高度一致性,为影视创作提供了全新的数字化工具。
衍生相关工作
基于RawCuts和CuratedCuts数据集,衍生出了一系列重要的研究工作。Cut2Next框架通过扩散变换器和创新的层级多提示策略,实现了专业编辑模式与严格电影连续性的平衡。相关技术如上下文感知条件注入(CACI)和分层注意力掩码(HAM)进一步提升了生成质量。这些工作推动形成了新的评估基准CutBench,为后续的镜头生成研究设立了标准化测试环境,促进了整个领域的发展。
以上内容由遇见数据集搜集并总结生成



