five

DataDoP|电影制作数据集|计算机视觉数据集

收藏
arXiv2025-04-10 更新2025-04-11 收录
电影制作
计算机视觉
下载链接:
https://kszpxxzmc.github.io/GenDoP/
下载链接
链接失效反馈
资源简介:
DataDoP数据集是一个大规模的多模态数据集,包含29K个现实世界中的自由移动相机轨迹,深度图和详细的运动标签。数据集由浙江大学、上海人工智能实验室等机构创建,每个样本包括一个镜头级别的相机轨迹,对应的RGBD图像,以及两种类型的轨迹描述:运动描述和导演描述。运动描述仅描述相机运动,而导演描述则包括相机运动、与场景的互动和导演意图。该数据集聚焦于艺术性的自由移动轨迹,能够捕捉导演的创意视野,具有 cinematic 和艺术价值。
提供机构:
浙江大学, 上海人工智能实验室, 斯坦福大学, 香港中文大学, 南洋理工大学
创建时间:
2025-04-10
AI搜集汇总
数据集介绍
main_image_url
构建方式
DataDoP数据集的构建过程体现了严谨的多模态数据处理流程。研究团队首先从互联网精选艺术影片片段,运用PySceneDetect进行镜头分割,并通过VSR技术去除字幕干扰。随后采用MonST3R算法从动态场景中提取相机轨迹和深度图,经过清洗、平滑和插值处理形成标准化序列。关键创新在于通过GPT-4o生成双重标注:运动标注精确描述相机位移与旋转参数,导演标注则阐释镜头运动与场景叙事的交互意图。整个流程包含语义过滤环节,利用大语言模型自动识别并保留具有艺术表现力的自由移动镜头,最终形成包含2.9万样本的大规模数据集。
特点
该数据集的核心价值在于其专业级的电影化轨迹标注体系。相较于传统多视角数据集,DataDoP突破性地捕捉了无约束三维相机运动,平均镜头时长14.4秒的设定能完整记录复杂运镜。数据集提供27种平移与7种旋转运动的组合标签,配合两种层次的语义描述:技术性的运动标注聚焦机械参数,而导演标注则揭示创作意图与场景互动的深层关联。特别设计的四维评估体系(对齐性、质量、复杂度、多样性)通过专家验证确保了标注可靠性,Fleiss' Kappa系数均超过0.4,证明其具有优秀的工业应用价值。
使用方法
该数据集支持端到端的艺术化相机轨迹生成研究。用户可通过文本指令(运动描述或导演意图)驱动生成模型,亦可结合首帧RGBD数据实现几何约束下的轨迹预测。典型工作流包含三个层次:基础层利用运动标签训练模型理解机械参数;中间层通过导演标注学习叙事逻辑;高级层整合视觉-几何-文本多模态输入。数据集配套提供的CLaTr嵌入支持文本-轨迹对齐评估,研究者可基于F1分数和CLaTr-FID等指标量化生成质量。对于视频生成任务,提取的轨迹可直接应用于NeRF或扩散模型实现镜头控制。
背景与挑战
背景概述
DataDoP数据集由斯坦福大学、香港中文大学等机构的研究团队于2025年提出,旨在解决电影摄影中艺术化相机轨迹生成的难题。该数据集包含29,000个真实世界镜头,涵盖自由移动的相机轨迹、深度图及详细描述,为学习型电影摄影技术建立了新标准。其创新性地将导演意图与场景交互纳入标注体系,显著推动了文本引导的相机控制研究,成为首个支持多模态输入的摄影轨迹生成基准。
当前挑战
在领域问题层面,DataDoP需解决传统方法难以捕捉复杂导演意图的局限,以及现有数据集在艺术表达与文本对齐上的不足。构建过程中面临三大挑战:1)从动态视频中提取高精度6-DoF相机轨迹的技术难题;2)设计兼顾运动学特征与叙事语义的多层次标注体系;3)确保长镜头(平均14.4秒)中复杂运动模式的时序连贯性。此外,基于LLM的导演意图标注需克服视觉-语言跨模态对齐的精确性要求。
常用场景
经典使用场景
在影视制作和计算机视觉领域,DataDoP数据集被广泛应用于自动化和艺术化的相机轨迹生成研究。该数据集通过提供大量真实拍摄的自由移动相机轨迹、深度图以及详细的运动描述和导演意图标注,为研究人员提供了一个丰富的实验平台。特别是在文本到视频(T2V)和图像到视频(I2V)生成任务中,DataDoP数据集能够帮助模型学习如何根据文本指令生成符合导演意图的复杂相机运动轨迹。
解决学术问题
DataDoP数据集解决了传统相机轨迹生成方法中存在的多个学术问题。首先,它弥补了现有数据集在艺术性和表达性上的不足,通过提供详细的运动标签和导演意图标注,使得模型能够生成更具艺术感的相机运动。其次,该数据集通过多模态输入(如RGBD图像和文本描述)的结合,解决了文本与运动轨迹对齐的难题,从而提升了生成轨迹的精确性和可控性。此外,DataDoP还为研究相机运动与场景交互提供了丰富的数据支持。
衍生相关工作
DataDoP数据集衍生了许多相关的研究工作,特别是在相机轨迹生成和视频生成领域。例如,基于该数据集的研究提出了GenDoP模型,这是一种自回归的相机轨迹生成方法,能够根据文本和RGBD输入生成高质量的运动轨迹。此外,DataDoP还被用于改进现有的文本到视频生成模型(如Cameractrl和TrajectoryCrafter),使得生成的视频在相机运动上更加符合导演意图。这些工作进一步推动了自动化和智能化视频制作的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

diegopdlv5/test_dataset_0049c

该数据集主要包含音频数据,分为训练集,共有135个样本,总大小为51580253字节。下载大小为51573551字节。

hugging_face 收录

(주)동구바이오제약 2024년 기업정보 | 직원수, 근무환경, 복리후생 등

(주)동구바이오제약 기업소개 - 업력 : 42년차, 기업형태 : -, 업종 : 완제 의약품 제조업 | (주)동구바이오제약의 직원수, 연봉, 채용, 근무환경, 복리후생, 재무정보 등이 궁금하시다면, 사람인에서 더 많은 정보를 확인해보세요.

www.saramin.co.kr 收录

mmlu_eval

该数据集用于评估和比较不同模型的推理能力。它包含多个特征,如问题、主题、选项、答案、输入、基线模型输出、混合推理模型输出和评估结果。数据集分为一个验证集,包含1531个样本。数据集的大小为10295402字节,下载大小为4908248字节。

huggingface 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录