five

CineVerse|电影制作数据集|视频合成数据集

收藏
arXiv2025-04-28 更新2025-04-30 收录
电影制作
视频合成
下载链接:
https://cinevers.github.io/
下载链接
链接失效反馈
资源简介:
CineVerse数据集是为了电影场景组合任务而创建的,它由马里兰大学帕克分校和Adobe Research共同开发。该数据集的创建旨在支持电影制作中的多角色、复杂交互和视觉电影效果等挑战,为电影场景的生成提供了高质量的数据支持。CineVerse数据集的创建过程和具体内容在文中未详细描述,但可以推测它包含了详细的场景描述、角色设定和镜头描述等信息。该数据集的应用领域主要在于电影视频合成,旨在生成视觉上连贯且内容丰富的电影场景,为电影制作提供新的可能性。
提供机构:
马里兰大学帕克分校, Adobe Research
创建时间:
2025-04-28
原始信息汇总

CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition

摘要

  • 提出CineVerse框架,专注于电影场景合成的任务。
  • 任务特点:强调帧间一致性和连续性,解决电影制作中的多角色、复杂互动和视觉特效等挑战。
  • 方法:创建CineVerse数据集,采用两阶段方法:
    1. 使用大型语言模型(LLM)生成详细场景计划(包括场景设置、角色描述和分镜描述)。
    2. 微调文本到图像生成模型以合成高质量视觉关键帧。
  • 实验结果:CineVerse在生成视觉连贯且内容丰富的电影场景方面表现优异。

方法概述

  1. 第一阶段(LLM规划)
    • 输入:场景描述。
    • 输出:详细脚本,包括:
      • 场景设置(背景描述)。
      • 角色(独特外观描述)。
      • 分镜描述(角色动作和指定镜头)。
  2. 第二阶段(关键帧合成)
    • 使用生成的脚本,通过微调的文本到图像模型合成多张关键帧。

数据处理

  • 使用预训练的视觉语言模型提取场景描述、分镜细节和角色外观。

对比实验

A. 多角色场景对比

  • 对比方法
    • One-Prompt-One-Story (ICLR 2025)
    • ConsiStory (TOG 2025)
    • StoryDiff (NeurIPS 2024)
    • IC-LoRA (arxiv 2024)
  • 示例
    • 场景:技术人员通过“光环”装置制服嫌疑人。
    • 地点:未来主义实验室。
    • 角色:两名技术人员(女性和男性)和一名嫌疑人。
    • 分镜描述:包含5个镜头(广角、中景、特写等)。

B. 单角色场景对比

  • 对比方法:Video Studio (Long et al., ECCV 2024)
  • 示例
    • 场景:Adam在电视工作室担任制作助理。
    • 地点:繁忙的电视工作室。
    • 角色:Adam(年轻男性,休闲装扮)。
    • 分镜描述:包含3个镜头(广角、中景、特写)。

C. LLM分镜规划对比

  • 对比方法:通用指令 vs. 指令优化
  • 示例
    • 场景:Cobb的图腾(旋转的陀螺)。
    • 地点:模糊的现实与梦境混合环境。
    • 角色:Cobb(男性,短头发)。
    • 分镜描述:包含3个镜头(广角、中景、特写)。
AI搜集汇总
数据集介绍
main_image_url
构建方式
CineVerse数据集的构建基于Storyboard20K数据集,通过多阶段精细处理流程实现。首先筛选出8.5K个多镜头场景作为基础数据,随后利用LLaVa-OneVision多模态大模型提取镜头描述、景别尺寸、场景设置和角色特征等新属性。针对原始数据中代词指代模糊的问题,结合MovieNet的全局情节信息,采用LLama3.3模型进行指代消解和场景描述细化,最终形成包含46K个镜头的增强型数据集。
使用方法
使用该数据集需遵循两阶段流程:首先将高层场景描述输入经过微调的LLM(如LLama3.3-70B)生成包含场景设置、角色属性和分镜脚本的详细规划;随后采用基于FLUX架构的文本生成图像模型,通过固定高度(272px)和棋盘格边界(16px)的预处理方式,将分镜脚本转换为视觉连贯的关键帧序列。特别建议在微调时采用rank=128的LoRA适配器,以获得最佳的多镜头生成效果。
背景与挑战
背景概述
CineVerse数据集由马里兰大学和Adobe Research的研究团队于2025年创建,旨在解决电影场景合成的关键问题。该数据集专注于从高级场景描述生成连贯的多镜头关键帧,强调角色一致性、场景连续性和电影化效果。作为首个专门针对电影级多镜头合成的数据集,CineVerse通过整合Storyboard20K的8.5K多镜头场景并新增镜头尺寸、场景设置等标注,为生成式AI在电影叙事领域的应用提供了重要基准。其创新性的两阶段框架——基于大语言模型的场景规划和文本到图像的关键帧生成——显著提升了视觉叙事的一致性,对自动电影制作、虚拟制片等领域产生深远影响。
当前挑战
CineVerse面临的核心挑战体现在两个维度:在领域问题层面,现有方法难以同时保证多角色交互的视觉一致性、复杂电影效果的呈现以及严格遵循电影语法规则的镜头序列生成;在构建过程层面,数据收集需解决原始场景描述中代词指代模糊的问题,而多模态大模型标注时需平衡细节丰富性与标注效率。此外,固定帧高度与可变宽度图像的处理、关键帧间明确边界的定义等技术难题也增加了数据集构建的复杂性。这些挑战使得电影级场景合成成为生成式AI中尚未完全攻克的前沿问题。
常用场景
经典使用场景
CineVerse数据集在电影场景合成领域具有广泛的应用价值,尤其在生成多镜头一致的关键帧方面表现突出。该数据集通过结合大型语言模型(LLM)和文本到图像生成模型,能够根据高层场景描述生成详细的镜头计划和高质量的关键帧。这一过程不仅涵盖了场景设置、角色描述,还包括具体的镜头大小和动作细节,为电影制作和视觉叙事提供了强有力的支持。
解决学术问题
CineVerse数据集解决了电影场景合成中的多个关键学术问题。首先,它通过生成一致且连贯的关键帧序列,解决了多镜头生成中的一致性和连续性问题。其次,该数据集能够处理复杂场景中的多角色交互和视觉特效,填补了现有方法在复杂场景生成上的不足。此外,CineVerse还通过详细的镜头描述和角色标注,提升了文本到图像生成模型在电影场景合成中的表现。
实际应用
在实际应用中,CineVerse数据集为电影制作、动画设计和游戏开发等领域提供了强大的工具。电影制作者可以利用该数据集快速生成故事板,预览不同镜头的效果,从而优化拍摄计划。动画设计师可以通过生成一致的角色和场景,提高动画制作的效率和质量。此外,游戏开发者也可以利用该数据集生成游戏场景中的关键帧,增强游戏的视觉叙事效果。
数据集最近研究
最新研究方向
近年来,CineVerse数据集在电影场景合成领域引起了广泛关注。该数据集专注于解决电影制作中的关键挑战,如多角色交互、复杂场景布局以及视觉连续性。通过结合大型语言模型(LLM)和文本到图像生成模型,CineVerse能够从高层场景描述生成详细的镜头计划和高质量的关键帧。这一方法不仅提升了文本与图像的对齐度,还在角色一致性和场景连续性方面表现出色。当前的研究热点包括如何进一步优化模型的生成能力,以处理更复杂的电影叙事结构,以及如何将这一技术应用于实际电影制作流程中。CineVerse的出现为电影自动生成和后期制作提供了新的可能性,推动了生成式人工智能在影视行业的应用。
相关研究论文
  • 1
    CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition马里兰大学帕克分校, Adobe Research · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

crack segmentation dataset

We have open-sourced a large-scale, meticulously annotated crack segmentation dataset, which is aimed at the most common on-board camera scenarios. This dataset consists of 3,540 high-resolution images (3840×2160 pixels) shot from several roads in Shandong Province, China, using a camera-equipped vehicle. The collected images are then meticulously annotated with pixel-level semantic masks by a team of professionals who meticulously annotated the locations and shapes of cracks on the images using the CVAT annotation tool. To note, the annotation process for each image underwent thorough inspection and verification to ensure the accuracy and consistency of the labels. Furthermore, we ensured that the dataset includes images captured under different road types (e.g., freeways, national and provincial highways, etc.) to enhance the model's generalization capability.

github 收录

Comparative Toxicogenomics Database (CTD)

Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。

ctdbase.org 收录

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

轴承故障数据集

本项目集成了多个公开的轴承故障数据集,所有数据均被处理为1秒/个的数据样本,并使用fft得到其频域特征。支持通过数据集、通道、故障、严重程度对所有样本进行筛选,并选择时域或频域显示。

github 收录

中国逐日格点降水数据集V2(1960–2024,0.1°)

CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。

国家青藏高原科学数据中心 收录