CineVerse|电影制作数据集|视频合成数据集
收藏CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition
摘要
- 提出CineVerse框架,专注于电影场景合成的任务。
- 任务特点:强调帧间一致性和连续性,解决电影制作中的多角色、复杂互动和视觉特效等挑战。
- 方法:创建CineVerse数据集,采用两阶段方法:
- 使用大型语言模型(LLM)生成详细场景计划(包括场景设置、角色描述和分镜描述)。
- 微调文本到图像生成模型以合成高质量视觉关键帧。
- 实验结果:CineVerse在生成视觉连贯且内容丰富的电影场景方面表现优异。
方法概述
- 第一阶段(LLM规划):
- 输入:场景描述。
- 输出:详细脚本,包括:
- 场景设置(背景描述)。
- 角色(独特外观描述)。
- 分镜描述(角色动作和指定镜头)。
- 第二阶段(关键帧合成):
- 使用生成的脚本,通过微调的文本到图像模型合成多张关键帧。
数据处理
- 使用预训练的视觉语言模型提取场景描述、分镜细节和角色外观。
对比实验
A. 多角色场景对比
- 对比方法:
- One-Prompt-One-Story (ICLR 2025)
- ConsiStory (TOG 2025)
- StoryDiff (NeurIPS 2024)
- IC-LoRA (arxiv 2024)
- 示例:
- 场景:技术人员通过“光环”装置制服嫌疑人。
- 地点:未来主义实验室。
- 角色:两名技术人员(女性和男性)和一名嫌疑人。
- 分镜描述:包含5个镜头(广角、中景、特写等)。
B. 单角色场景对比
- 对比方法:Video Studio (Long et al., ECCV 2024)
- 示例:
- 场景:Adam在电视工作室担任制作助理。
- 地点:繁忙的电视工作室。
- 角色:Adam(年轻男性,休闲装扮)。
- 分镜描述:包含3个镜头(广角、中景、特写)。
C. LLM分镜规划对比
- 对比方法:通用指令 vs. 指令优化
- 示例:
- 场景:Cobb的图腾(旋转的陀螺)。
- 地点:模糊的现实与梦境混合环境。
- 角色:Cobb(男性,短头发)。
- 分镜描述:包含3个镜头(广角、中景、特写)。

- 1CineVerse: Consistent Keyframe Synthesis for Cinematic Scene Composition马里兰大学帕克分校, Adobe Research · 2025年
crack segmentation dataset
We have open-sourced a large-scale, meticulously annotated crack segmentation dataset, which is aimed at the most common on-board camera scenarios. This dataset consists of 3,540 high-resolution images (3840×2160 pixels) shot from several roads in Shandong Province, China, using a camera-equipped vehicle. The collected images are then meticulously annotated with pixel-level semantic masks by a team of professionals who meticulously annotated the locations and shapes of cracks on the images using the CVAT annotation tool. To note, the annotation process for each image underwent thorough inspection and verification to ensure the accuracy and consistency of the labels. Furthermore, we ensured that the dataset includes images captured under different road types (e.g., freeways, national and provincial highways, etc.) to enhance the model's generalization capability.
github 收录
Comparative Toxicogenomics Database (CTD)
Comparative Toxicogenomics Database(CTD)是一个公开的综合性数据库,专注于研究环境暴露与人类健康之间的关系。该数据库整合了化学物质、基因、疾病、通路等多维度信息,支持用户查询基因与疾病、化学物质与疾病以及化学物质与基因之间的相互作用,为毒理学研究和环境健康效应研究提供了重要资源。其最新成果包括2025年发布的20周年更新版本,进一步扩展了数据内容和功能。
ctdbase.org 收录
GlobalBuildingAtlas
GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。
arXiv 收录
轴承故障数据集
本项目集成了多个公开的轴承故障数据集,所有数据均被处理为1秒/个的数据样本,并使用fft得到其频域特征。支持通过数据集、通道、故障、严重程度对所有样本进行筛选,并选择时域或频域显示。
github 收录
中国逐日格点降水数据集V2(1960–2024,0.1°)
CHM_PRE V2数据集是一套高精度的中国大陆逐日格点降水数据集。该数据集基于1960年至今共3476个观测站的长期日降水观测数据,并纳入11个降水相关变量,用于表征降水的相关性。数据集采用改进的反距离加权方法,并结合基于机器学习的LGBM算法构建。CHM_PRE V2与现有的格点降水数据集(包括CHM_PRE V1、GSMaP、IMERG、PERSIANN-CDR和GLDAS)表现出良好的时空一致性。数据集基于63,397个高密度自动雨量站2015–2019年的观测数据进行验证,发现该数据集显著提高了降水测量精度,降低了降水事件的高估,为水文建模和气候评估提供了可靠的基础。CHM_PRE V2 数据集提供分辨率为0.1°的逐日降水数据,覆盖整个中国大陆(18°N–54°N,72°E–136°E)。该数据集涵盖1960–2024年,并将每年持续更新。日值数据以NetCDF格式提供,为了方便用户,我们还提供NetCDF和GeoTIFF格式的年度和月度总降水数据。
国家青藏高原科学数据中心 收录