Phantom-Data

Name: Phantom-Data
Creator: 字节跳动智能创作实验室
Published: 2025-06-24 01:11:56
License: 暂无描述

arXiv2025-06-24 更新2025-06-25 收录

下载链接：

https://phantom-video.github.io/Phantom-Data/

下载链接

链接失效反馈

官方服务：

资源简介：

Phantom-Data是一个通用主题一致的视视频生成数据集，旨在解决现有模型在忠实遵循文本指令方面的挑战。该数据集包含约一百万个身份一致的跨类别对，通过一个三阶段的流程构建：一个通用的输入对齐的主题检测模块，从超过5300万个视频和30亿张图像中进行大规模跨上下文主题检索，以及基于先验的视觉一致性验证。该数据集显著提高了提示对齐和视觉质量，同时保持了与成对基线相当的身份一致性。

Phantom-Data is a general thematic consistent video and image generation dataset designed to address the challenges existing models face in adhering to textual instructions accurately. The dataset comprises approximately one million consistent identity pairs across categories, constructed through a three-phase process: a general input alignment thematic detection module, large-scale cross-contextual thematic retrieval from over 53 million videos and 3 billion images, and a prior-based visual consistency validation. This dataset significantly enhances prompt alignment and visual quality while maintaining a comparable identity consistency with paired baselines.

提供机构：

字节跳动智能创作实验室

创建时间：

2025-06-24

原始信息汇总

Phantom-Data 数据集概述

基本信息

数据集名称: Phantom-Data
开发团队: Intelligent Creation Lab, ByteDance
主要贡献者: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu 等
论文状态: arXiv preprint (2025)
论文编号:
- Phantom-Data: arXiv:2506.18851
- Phantom: arXiv:2502.11079

数据集目标

解决主题到视频生成中的"复制粘贴"问题
提供首个通用的大规模跨对主题一致视频生成数据集

核心特点

规模: 包含约100万个身份一致的对
多样性: 覆盖30,000多个多主题场景
质量: 高视觉一致性

数据集构建流程

主题中心检测模块: 获取通用且输入对齐的主题
跨上下文检索系统: 从5300万视频和30亿图像中检索跨对候选
先验引导身份验证: 确保上下文变化下的视觉一致性

研究成果

相比基线方法显著改善了提示对齐和视觉质量
在保持身份一致性方面与基线方法相当

非合成数据选择原因

现有SOTA模型(GPT4o和DreamO)仍会产生不一致主题
跨对数据构建流程能提供完全相同的主题

引用信息

bibtex @article{chen2025phantom-data, title={Phantom-Data: Towards a General Subject-Consistent Video Generation Dataset}, author={Chen, Zhuowei and Li, Bingchuan and Ma, Tianxiang and Liu, Lijie and Liu, Mingcong and Zhang, Yi and Li, Gen and Li, Xinghui and Zhou, Siyu and He, Qian and Wu, Xinglong}, journal={arXiv preprint arXiv:2506.18851}, year={2025} } @article{liu2025phantom, title={Phantom: Subject-consistent video generation via cross-modal alignment}, author={Liu, Lijie and Ma, Tianxiang and Li, Bingchuan and Chen, Zhuowei and Liu, Jiawei and Li, Gen and Zhou, Siyu and He, Qian and Wu, Xinglong}, journal={arXiv preprint arXiv:2502.11079}, year={2025} }

许可信息

许可证: Creative Commons Attribution-ShareAlike 4.0 International License

搜集汇总

数据集介绍

构建方式

Phantom-Data数据集通过三阶段流程构建，旨在解决主题一致视频生成中的复制粘贴问题。首先，采用视觉语言模型进行开放集目标检测，识别合适大小的候选主题；其次，从超过5300万视频和30亿图像中执行大规模跨上下文主题检索；最后，通过先验引导的身份验证确保视觉一致性。这一流程确保了数据集在广泛类别中的身份一致性和上下文多样性。

特点

Phantom-Data数据集包含约100万身份一致的对，覆盖人类、动物、产品等多种主题类别，支持单主题和多主题场景。其独特之处在于跨上下文设计，即参考主题与目标视频中的主题出现在不同背景下，鼓励模型在分布变化下泛化身份保持能力，减少对无关视觉上下文的依赖。此外，数据集还包含超过3万多个多主题场景，为建模通用主题到视频任务提供了坚实基础。

使用方法

Phantom-Data数据集适用于训练主题一致视频生成模型，特别是在需要高文本对齐和视觉质量的场景中。使用时，研究人员可以利用数据集中的跨上下文对来训练模型，以减少复制粘贴问题并提高生成视频的多样性。数据集还支持对模型在身份一致性、文本对齐和视频质量等方面的全面评估，通过提供的多样化测试案例，研究人员可以验证模型在不同主题和场景下的表现。

背景与挑战

背景概述

Phantom-Data是由字节跳动智能创作实验室于2025年6月提出的首个通用跨配对主题一致视频生成数据集。该数据集旨在解决当前主题到视频生成（S2V）领域中普遍存在的'复制粘贴问题'——即模型在生成过程中过度依赖参考图像的背景和上下文属性，导致难以忠实遵循文本指令的问题。数据集包含约100万个跨多样类别的身份一致配对，通过三阶段流程构建：通用输入对齐主题检测、从超过5300万视频和30亿图像中进行大规模跨上下文主题检索，以及基于先验引导的身份验证。Phantom-Data的推出为提升生成模型的提示对齐能力和视觉质量，同时保持身份一致性提供了重要基准。

当前挑战

Phantom-Data主要应对两大核心挑战：在领域问题层面，现有S2V模型因采用同场景采样的'配对内'训练范式，导致生成视频无法有效解耦主题身份与背景属性，出现文本指令偏离或视觉伪影；在构建过程层面，需克服跨上下文身份验证的精度难题——既要确保检索到的主题在不同背景下保持形状、结构和纹理的一致性，又要避免因规模庞大（涉及30亿图像检索）产生的误匹配。此外，数据集还需平衡通用性（覆盖人/动物/产品等30,000多场景）与专业性（如人脸采用ArcFace编码器，产品依赖品牌标识验证）的矛盾。

常用场景

经典使用场景

Phantom-Data作为首个通用跨配对主题一致视频生成数据集，其经典使用场景主要集中于解决文本到视频生成中的主题一致性问题。该数据集通过大规模跨上下文主题检索和身份验证，为模型训练提供了丰富的主题一致但背景多样的样本，从而显著提升了生成视频的文本对齐能力和视觉质量。在个性化广告、AI驱动电影制作等领域，Phantom-Data的应用尤为突出，能够生成既符合文本描述又保持主题身份一致的高质量视频内容。

衍生相关工作

Phantom-Data的发布推动了多项主题一致视频生成领域的创新工作。基于该数据集，研究者开发了Phantom-wan等开源生成框架，实现了身份特征的噪声空间条件注入。相关衍生工作包括跨模态对齐架构优化、多主题交互生成算法，以及结合大语言模型的视频剧情控制方法。这些进展共同构成了当前主题驱动视频生成的技术体系，为可控内容创作设立了新的基准。

数据集最近研究