OneStory多镜头视频数据集

Name: OneStory多镜头视频数据集
Creator: Meta AI, 哥本哈根大学
Published: 2025-12-09 02:32:24
License: 暂无描述

arXiv2025-12-09 更新2025-12-10 收录

下载链接：

https://zhaochongan.github.io/projects/OneStory

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Meta AI与哥本哈根大学联合构建，包含约6万条高质量多镜头视频序列，专为长程叙事一致性建模而设计。数据内容聚焦人类中心活动，通过三阶段流程（镜头检测、两阶段标注、质量过滤）从原始视频中提取，每个镜头配备具有指代关系的渐进式文本描述。区别于传统全局脚本标注，采用镜头级参照性标注策略，确保叙事灵活性与真实拍摄场景相符，支持复杂场景下的跨镜头上下文建模。数据集主要应用于多镜头视频生成领域，旨在解决现有方法在长程叙事一致性和时空推理方面的局限性。

This dataset was co-developed by Meta AI and the University of Copenhagen, comprising approximately 60,000 high-quality multi-shot video sequences specifically designed for long-range narrative consistency modeling. Focusing on human-centric activities, the dataset is extracted from raw videos through a three-stage workflow consisting of shot detection, two-stage annotation, and quality filtering. Each shot is paired with progressive textual descriptions that feature coreferential relationships. Unlike conventional global script annotation, it adopts a shot-level referential annotation strategy, which ensures that narrative flexibility aligns with real-world filming scenarios and enables cross-shot contextual modeling in complex scenes. Primarily utilized in the domain of multi-shot video generation, this dataset aims to address the limitations of existing methods in long-range narrative consistency and spatio-temporal reasoning.

提供机构：

Meta AI, 哥本哈根大学

创建时间：

2025-12-09

搜集汇总

数据集介绍

构建方式

在视频生成领域，构建高质量的多镜头数据集对于推动叙事连贯性研究至关重要。OneStory数据集的构建采用了一个精心设计的三步流程：首先通过TransNetV2模型检测原始视频中的镜头边界，筛选出包含至少两个镜头的序列；随后利用视觉语言模型进行两阶段标注，先独立生成每个镜头的描述，再基于前序镜头的画面和文本，以指代性表达重写后续描述，确保叙事流的自然衔接；最后通过多级过滤机制，结合关键词与特征匹配方法，剔除内容不当或过渡不相关的样本，最终形成约60K条高质量多镜头视频数据，为人本叙事模式提供了扎实基础。

特点

该数据集的核心特点在于其叙事结构的真实性与灵活性。与依赖全局脚本的传统方法不同，OneStory采用镜头级指代性标注，每个镜头的描述均与前序内容语义关联，例如使用“同一人物”等表述，从而模拟了现实叙事中镜头自然演进的模式。这种设计不仅增强了跨镜头上下文的一致性，还赋予了模型处理复杂叙事变化的能力，支持角色重现、场景转换与多线程合成等高级任务。数据集中于人类活动，涵盖多样化的场景与互动，为多镜头视频生成提供了丰富且连贯的语义基础。

使用方法

在应用层面，该数据集支持将多镜头视频生成重构为“下一镜头生成”任务，以实现自回归式的叙事合成。研究人员可基于预训练的图生视频模型进行微调，利用数据集中的指代性标注作为条件输入，驱动模型生成语义连贯的后续镜头。具体使用时，需结合帧选择模块从历史镜头中提取语义相关的关键帧，并通过自适应条件器将压缩后的上下文信息注入生成器，以保持长程叙事一致性。该方法统一支持文本与图像条件生成，适用于可控的长篇视频叙事创作，为沉浸式故事生成提供了有效工具。

背景与挑战

背景概述

OneStory多镜头视频数据集由Meta AI与哥本哈根大学的研究团队于2025年共同构建，旨在推动多镜头视频生成领域的发展。该数据集的核心研究问题是解决真实世界叙事视频中普遍存在的多镜头连贯生成难题，即如何让模型生成一系列在语义上连贯、但时空上可能不连续的镜头片段，以构成一个完整的叙事流。传统单镜头生成方法难以建模长距离的跨镜头上下文依赖，导致生成的视频在复杂叙事下出现角色、环境不一致或剧情断裂等问题。OneStory数据集的构建为多镜头视频生成任务提供了高质量的训练与评估基准，通过包含约6万个精心标注的多镜头视频样本，为模型学习跨镜头的语义连贯性与时空推理能力奠定了数据基础，显著提升了该领域的研究水平与应用潜力。

当前挑战

OneStory数据集致力于解决多镜头视频生成领域的核心挑战，即如何确保生成的多个镜头在叙事上保持连贯，同时在视觉上维持角色、环境等要素的一致性。具体挑战包括：在领域问题层面，模型需克服长距离上下文建模的困难，有效捕捉并维持跨镜头的语义关联，避免因镜头切换导致叙事断裂或实体身份丢失；在构建过程层面，数据集的创建面临高质量多镜头视频稀缺的难题，需通过精细的镜头检测、两阶段描述生成与多重质量过滤流程，从原始视频中提取出叙事连贯的片段，并生成具有指代关系的逐镜头描述，以模拟真实叙事流程，确保数据的有效性与实用性。

常用场景

经典使用场景

在视频生成领域，多镜头叙事构建是模拟真实世界影视创作的核心挑战。OneStory多镜头视频数据集通过精心构建的60K高质量视频序列，为研究社区提供了评估和训练多镜头视频生成模型的基准环境。该数据集以分镜头标注和参考性叙事流为特色，每个镜头均配有基于前序镜头语义重写的描述性文本，从而精准模拟了影视制作中镜头间语义连贯而视觉非连续的特性。这一设计使得数据集成为测试模型在长程跨镜头上下文建模、角色与环境一致性保持、以及复杂叙事逻辑遵循等方面性能的理想平台，尤其适用于推动自回归式多镜头生成框架的发展与验证。

解决学术问题

该数据集主要致力于解决多镜头视频生成中的核心学术难题，即如何有效建模长程、非连续的跨镜头语义关联以保障叙事连贯性。传统方法受限于固定时间窗口或单关键帧条件，难以维持复杂叙事中角色、场景的一致性，导致生成视频出现逻辑断裂。OneStory数据集通过提供具有参考性标注的镜头序列，使研究者能够开发并评估如自适应记忆建模等新机制，从而在生成过程中实现全局而紧凑的上下文感知。这不仅显著提升了多镜头生成在角色重现、场景布局保持、以及动态事件演进等方面的性能，也为探索下一代叙事驱动的生成式人工智能奠定了关键的数据基础。

衍生相关工作

围绕OneStory数据集及其提出的自适应记忆建模框架，已衍生出一系列专注于提升多镜头视频生成连贯性的经典研究工作。例如，基于其‘下一镜头生成’的任务重构思想，后续研究探索了更高效的历史记忆压缩与检索机制。同时，该数据集推动了对固定窗口注意力范式与关键帧条件范式的深入比较与改进，催生了如动态上下文选择、重要性引导的块化等技术方向。此外，在数据集构建方法论上，其分阶段标注与质量过滤流程也为后续高质量多镜头数据集的创建提供了重要参考，促进了整个领域在数据标准化与模型评估基准方面的共同进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集