Any2CapIns
收藏arXiv2025-04-01 更新2025-04-03 收录
下载链接:
https://sqwu.top/Any2Cap/
下载链接
链接失效反馈官方服务:
资源简介:
Any2CapIns数据集是由快手科技和新加坡国立大学构建的大型数据集,包含337K个实例和407K个条件。数据集涵盖了深度图、多身份、人体姿态、摄像头姿态等四种主要条件类型,通过手动标注和自动化标注相结合的方式,生成详细的、结构化的视频字幕,用于指导视频生成模型生成高度可控的视频。
The Any2CapIns dataset is a large-scale dataset developed by Kuaishou Technology and the National University of Singapore. It comprises 337K instances and 407K conditioning conditions, covering four primary types of control attributes: depth maps, multiple identities, human poses, and camera poses. Using a hybrid annotation framework that combines manual and automated labeling, the dataset generates detailed, structured video captions intended to guide video generation models in producing highly controllable videos.
提供机构:
快手科技,新加坡国立大学
创建时间:
2025-04-01
搜集汇总
数据集介绍

构建方式
Any2CapIns数据集的构建采用了三阶段流程:数据收集、结构化视频字幕生成和用户中心短提示生成。在数据收集阶段,研究者系统地将条件分为空间、动作、构图和相机四大类,并利用先进工具如Depth Anything和DWPose生成深度图和人体姿态标注。结构化字幕生成阶段继承并扩展了六组件字幕格式,包括密集字幕、主体对象字幕等,通过独立生成各组件后整合形成最终结构化字幕。用户中心短提示生成阶段则通过GPT-4V在保持条件不变性的前提下,模拟用户自然表达方式生成简洁提示,最终构建了包含337K高质量实例的大规模数据集。
使用方法
使用Any2CapIns数据集时,研究者可通过输入简洁用户提示配合任意视觉条件(如图像、视频或专业条件如相机位姿),由Any2Caption框架生成结构化字幕后输入各类视频生成模型。具体流程分为三步:首先将用户提供的短文本提示T与非文本条件C=[c1,…,cn]输入Any2Caption;然后模型通过专用编码器处理不同模态条件,生成包含六个组件的结构化字幕;最后将该字幕输入现有视频生成器如CogVideoX或HunyuanVideo,无需额外微调即可提升生成质量。该方法特别适用于需要精确控制生成内容的研究场景,如电影预可视化或动画创作。
背景与挑战
背景概述
Any2CapIns数据集由Kuaishou Technology与新加坡国立大学的研究团队于2025年创建,旨在解决可控视频生成领域用户意图解析的瓶颈问题。该数据集包含33.7万实例和40.7万条件标注,通过多模态大语言模型(MLLM)将文本、图像、视频及专业信号(如区域、运动、相机位姿)转化为结构化密集描述,为视频生成器提供精准指导。其创新性在于将条件解析与视频合成步骤解耦,显著提升了现有视频生成模型在控制力和生成质量方面的表现,对影视制作、动画创作等产业应用具有重要价值。
当前挑战
该数据集面临的核心挑战包括:1) 领域问题层面,需解决多模态条件(如深度图、相机轨迹、多人身份)与文本提示的语义对齐难题,确保生成视频严格遵循复杂组合条件;2) 构建过程中,需克服非文本条件(如人体姿态序列)的标准化表示问题,并通过GPT-4V自动标注与人工校验相结合的方式保证407K条件标注的精确性。此外,结构化描述需平衡细节丰富度与生成器兼容性,避免因描述过度具体导致视频生成偏离用户意图。
常用场景
经典使用场景
Any2CapIns数据集在可控视频生成领域具有广泛的应用场景,特别是在多模态条件解析与结构化字幕生成任务中表现卓越。该数据集通过整合文本、图像、视频及专业条件(如深度图、相机位姿、人体姿态等),为模型提供了丰富的跨模态对齐样本。其经典使用场景包括:基于任意输入条件生成密集结构化字幕,进而驱动视频生成模型实现高精度控制,例如将用户提供的草图、关键帧或风格参考转化为包含场景、主体、背景、相机运动等六要素的详细描述,最终输出符合意图的动态视频内容。
解决学术问题
该数据集有效解决了可控视频生成中的核心学术问题:用户意图的精确解析与多模态条件融合的语义鸿沟。传统方法依赖扩散模型内部编码器直接处理异构输入,导致生成质量受限;而Any2CapIns通过解耦条件解析与视频合成两个阶段,利用大规模指令调优数据训练专用MLLM,显著提升了模型对复杂组合条件(如相机运动+多身份+深度序列)的联合理解能力。实验表明,其生成的结构化字幕能使各类视频生成模型的CLIP-T分数平均提升19.3%,运动平滑度提高4.8%,为学术研究提供了可靠的基准测试平台。
实际应用
在实际应用中,Any2CapIns显著降低了专业级视频创作的技术门槛。影视预可视化领域可通过相机位姿序列直接生成分镜脚本;电商场景能依据商品草图自动产生多角度展示视频;虚拟偶像行业则利用身份图像与动作序列合成个性化表演。数据集支持的六类结构化描述(密集字幕、主体、背景、相机、风格、动作)可精准匹配工业管线需求,例如广告制作中要求同时控制产品特写镜头与整体氛围风格,其生成的视频在用户调研中满意度达82.6%。
数据集最近研究
最新研究方向
近年来,Any2CapIns数据集在可控视频生成领域引起了广泛关注。该数据集通过整合多模态输入条件(如深度图、人体姿态、相机位姿等)与结构化密集字幕,为视频生成模型提供了更精准的用户意图解析能力。研究热点集中在如何利用大规模多模态语言模型(MLLMs)将多样化输入条件转化为结构化描述,进而提升生成视频的精确控制性与质量。前沿探索包括:1)跨模态条件解耦与语义对齐技术,通过专用编码器处理异构输入;2)渐进式混合训练策略,平衡条件特异性与泛化能力;3)组合条件联合推理机制,解决多条件交互下的意图融合难题。该数据集显著推动了文本/图像/视频等多模态条件到视频的端到端生成框架发展,为影视制作、虚拟现实等应用提供了关键技术支撑。
相关研究论文
- 1Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation快手科技,新加坡国立大学 · 2025年
以上内容由遇见数据集搜集并总结生成



