DataDoP|电影制作数据集|计算机视觉数据集
收藏arXiv2025-04-10 更新2025-04-11 收录
下载链接:
https://kszpxxzmc.github.io/GenDoP/
下载链接
链接失效反馈资源简介:
DataDoP数据集是一个大规模的多模态数据集,包含29K个现实世界中的自由移动相机轨迹,深度图和详细的运动标签。数据集由浙江大学、上海人工智能实验室等机构创建,每个样本包括一个镜头级别的相机轨迹,对应的RGBD图像,以及两种类型的轨迹描述:运动描述和导演描述。运动描述仅描述相机运动,而导演描述则包括相机运动、与场景的互动和导演意图。该数据集聚焦于艺术性的自由移动轨迹,能够捕捉导演的创意视野,具有 cinematic 和艺术价值。
提供机构:
浙江大学, 上海人工智能实验室, 斯坦福大学, 香港中文大学, 南洋理工大学
创建时间:
2025-04-10
AI搜集汇总
数据集介绍

构建方式
DataDoP数据集的构建过程体现了严谨的多模态数据处理流程。研究团队首先从互联网精选艺术影片片段,运用PySceneDetect进行镜头分割,并通过VSR技术去除字幕干扰。随后采用MonST3R算法从动态场景中提取相机轨迹和深度图,经过清洗、平滑和插值处理形成标准化序列。关键创新在于通过GPT-4o生成双重标注:运动标注精确描述相机位移与旋转参数,导演标注则阐释镜头运动与场景叙事的交互意图。整个流程包含语义过滤环节,利用大语言模型自动识别并保留具有艺术表现力的自由移动镜头,最终形成包含2.9万样本的大规模数据集。
特点
该数据集的核心价值在于其专业级的电影化轨迹标注体系。相较于传统多视角数据集,DataDoP突破性地捕捉了无约束三维相机运动,平均镜头时长14.4秒的设定能完整记录复杂运镜。数据集提供27种平移与7种旋转运动的组合标签,配合两种层次的语义描述:技术性的运动标注聚焦机械参数,而导演标注则揭示创作意图与场景互动的深层关联。特别设计的四维评估体系(对齐性、质量、复杂度、多样性)通过专家验证确保了标注可靠性,Fleiss' Kappa系数均超过0.4,证明其具有优秀的工业应用价值。
使用方法
该数据集支持端到端的艺术化相机轨迹生成研究。用户可通过文本指令(运动描述或导演意图)驱动生成模型,亦可结合首帧RGBD数据实现几何约束下的轨迹预测。典型工作流包含三个层次:基础层利用运动标签训练模型理解机械参数;中间层通过导演标注学习叙事逻辑;高级层整合视觉-几何-文本多模态输入。数据集配套提供的CLaTr嵌入支持文本-轨迹对齐评估,研究者可基于F1分数和CLaTr-FID等指标量化生成质量。对于视频生成任务,提取的轨迹可直接应用于NeRF或扩散模型实现镜头控制。
背景与挑战
背景概述
DataDoP数据集由斯坦福大学、香港中文大学等机构的研究团队于2025年提出,旨在解决电影摄影中艺术化相机轨迹生成的难题。该数据集包含29,000个真实世界镜头,涵盖自由移动的相机轨迹、深度图及详细描述,为学习型电影摄影技术建立了新标准。其创新性地将导演意图与场景交互纳入标注体系,显著推动了文本引导的相机控制研究,成为首个支持多模态输入的摄影轨迹生成基准。
当前挑战
在领域问题层面,DataDoP需解决传统方法难以捕捉复杂导演意图的局限,以及现有数据集在艺术表达与文本对齐上的不足。构建过程中面临三大挑战:1)从动态视频中提取高精度6-DoF相机轨迹的技术难题;2)设计兼顾运动学特征与叙事语义的多层次标注体系;3)确保长镜头(平均14.4秒)中复杂运动模式的时序连贯性。此外,基于LLM的导演意图标注需克服视觉-语言跨模态对齐的精确性要求。
常用场景
经典使用场景
在影视制作和计算机视觉领域,DataDoP数据集被广泛应用于自动化和艺术化的相机轨迹生成研究。该数据集通过提供大量真实拍摄的自由移动相机轨迹、深度图以及详细的运动描述和导演意图标注,为研究人员提供了一个丰富的实验平台。特别是在文本到视频(T2V)和图像到视频(I2V)生成任务中,DataDoP数据集能够帮助模型学习如何根据文本指令生成符合导演意图的复杂相机运动轨迹。
解决学术问题
DataDoP数据集解决了传统相机轨迹生成方法中存在的多个学术问题。首先,它弥补了现有数据集在艺术性和表达性上的不足,通过提供详细的运动标签和导演意图标注,使得模型能够生成更具艺术感的相机运动。其次,该数据集通过多模态输入(如RGBD图像和文本描述)的结合,解决了文本与运动轨迹对齐的难题,从而提升了生成轨迹的精确性和可控性。此外,DataDoP还为研究相机运动与场景交互提供了丰富的数据支持。
衍生相关工作
DataDoP数据集衍生了许多相关的研究工作,特别是在相机轨迹生成和视频生成领域。例如,基于该数据集的研究提出了GenDoP模型,这是一种自回归的相机轨迹生成方法,能够根据文本和RGBD输入生成高质量的运动轨迹。此外,DataDoP还被用于改进现有的文本到视频生成模型(如Cameractrl和TrajectoryCrafter),使得生成的视频在相机运动上更加符合导演意图。这些工作进一步推动了自动化和智能化视频制作的发展。
以上内容由AI搜集并总结生成



