OpenS2V-5M

Name: OpenS2V-5M
Creator: 北京大学深圳研究生院, 罗切斯特大学, Rabbitpre AI
Published: 2025-05-28 19:44:33
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://pku-yuangroup.github.io/OpenS2V-Nexus

下载链接

链接失效反馈

官方服务：

资源简介：

OpenS2V-5M是一个大规模的数据集，包含五百万高质量的720P主体-文本-视频三元组。该数据集旨在解决主体生成视频中的三个主要挑战：泛化能力差、复制粘贴问题和人类保真度不足。通过构建跨视频关联和利用GPT-Image生成多视角表示，数据集确保了主体信息的多样性。OpenS2V-5M数据集为未来的主体生成视频研究提供了一个强大的基础设施。

OpenS2V-5M is a large-scale dataset containing 5 million high-quality 720P subject-text-video triplets. This dataset aims to address three core challenges in subject-driven video generation: poor generalization, the copy-paste artifact, and insufficient human fidelity. By constructing cross-video correlations and leveraging GPT-Image to generate multi-view representations, the dataset ensures the diversity of subject information. OpenS2V-5M provides a robust infrastructure for future subject-driven video generation research.

提供机构：

北京大学深圳研究生院, 罗切斯特大学, Rabbitpre AI

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

OpenS2V-5M数据集的构建采用了多阶段精细处理流程。首先从Open-Sora Plan获取原始视频素材，通过严格的质量筛选标准（包括美学评分、运动评分和水印检测）过滤出543万条高质量视频片段。随后利用Grounding DINO和SAM2.1模型进行主体分割，构建标准的主体-文本-视频三元组数据。创新性地引入Nexus Data增强策略，包括：（1）通过跨视频关联构建配对信息，建立不同视频片段间的语义关联；（2）采用GPT-Image-1模型对原始帧进行多视角合成，生成完整的主体表征。最终形成包含510万常规数据和35万增强数据的百万级数据集，所有视频均保持720P高清分辨率，平均时长6.6秒。

使用方法

该数据集支持端到端的主体驱动视频生成任务，用户可通过两种典型范式进行模型开发：基于常规数据的监督训练模式，直接利用分割后的主体-视频对学习表征映射；基于Nexus Data的增强训练模式，通过跨视频关联和合成数据提升模型泛化能力。具体使用时建议：（1）根据任务需求选择数据子集，人类相关任务可优先选用含FaceSim标注的样本；（2）利用提供的质量评分进行数据过滤，平衡数量与质量；（3）对于多主体生成任务，建议组合使用常规数据与GPT-Frame Pairs。数据集已提供标准化的数据加载接口，支持与主流视频生成框架（如Diffusion Transformer）的无缝对接。

背景与挑战

背景概述

OpenS2V-5M是由北京大学深圳研究生院、Rabbitpre AI以及罗切斯特大学的研究团队于2025年提出的百万规模主题到视频生成数据集，作为OPENS2V-NEXUS框架的核心组成部分。该数据集旨在解决现有视频生成基准在主题一致性评估方面的局限性，填补了主题驱动视频生成领域缺乏标准化评估基础设施的空白。研究团队通过跨视频关联和GPT-Image合成技术，构建了包含520万高质量720P主题-文本-视频三元组的数据集，覆盖单/多人脸、单/多实体等七大类主题场景，为视频生成模型的细粒度评估提供了重要基础设施。

当前挑战

该数据集主要应对三大核心挑战：首先在领域问题层面，现有主题到视频模型存在泛化能力不足（如对未训练主题类别的生成质量下降）、复制粘贴问题（机械迁移参考图像姿态光照导致不自然输出）和人类保真度不足（非人类实体生成优于人类身份保持）等关键瓶颈；其次在构建过程中，面临跨视频主题对齐的语义一致性维护、多视角合成数据的真实性保障，以及海量视频数据中主体信息的精确分割与标注等工程技术难题。此外，数据集的规模效应也带来了存储计算成本优化与质量控制的平衡挑战。

常用场景

经典使用场景

OpenS2V-5M数据集在计算机视觉领域主要用于主题到视频（Subject-to-Video, S2V）生成任务的研究与评估。该数据集通过提供高质量的主题-文本-视频三元组，支持模型在生成视频时保持主题一致性和自然性。典型使用场景包括开发能够根据参考主题生成连贯视频的模型，以及评估这些模型在主题一致性、自然性和文本相关性等方面的性能。

解决学术问题

OpenS22V-5M解决了当前S2V生成模型面临的三大核心挑战：泛化能力不足、复制粘贴问题以及人类身份保真度不足。通过提供多样化的主题类别和高质量的参考数据，该数据集帮助研究者开发更具鲁棒性的模型，从而提升生成视频的主题一致性和自然性。此外，数据集还引入了Nexus Data，通过跨视频关联和GPT-Image-1合成多视角表示，进一步提升了模型的泛化能力。

实际应用

在实际应用中，OpenS2V-5M数据集可用于广告制作、影视特效、虚拟现实和游戏开发等领域。例如，广告公司可以利用该数据集训练模型，生成包含特定产品或品牌的视频内容；影视制作团队可以通过该数据集开发工具，快速生成符合剧本要求的角色和场景视频。数据集的多样性和高质量使其成为推动创意产业技术革新的重要资源。

数据集最近研究