Any2CapIns

Name: Any2CapIns
Creator: 快手科技，新加坡国立大学
Published: 2025-04-01 01:59:01
License: 暂无描述

arXiv2025-04-01 更新2025-04-03 收录

下载链接：

https://sqwu.top/Any2Cap/

下载链接

链接失效反馈

官方服务：

资源简介：

Any2CapIns数据集是由快手科技和新加坡国立大学构建的大型数据集，包含337K个实例和407K个条件。数据集涵盖了深度图、多身份、人体姿态、摄像头姿态等四种主要条件类型，通过手动标注和自动化标注相结合的方式，生成详细的、结构化的视频字幕，用于指导视频生成模型生成高度可控的视频。

The Any2CapIns dataset is a large-scale dataset developed by Kuaishou Technology and the National University of Singapore. It comprises 337K instances and 407K conditioning conditions, covering four primary types of control attributes: depth maps, multiple identities, human poses, and camera poses. Using a hybrid annotation framework that combines manual and automated labeling, the dataset generates detailed, structured video captions intended to guide video generation models in producing highly controllable videos.

提供机构：

快手科技，新加坡国立大学

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

Any2CapIns数据集的构建采用了三阶段流程：数据收集、结构化视频字幕生成和用户中心短提示生成。在数据收集阶段，研究者系统地将条件分为空间、动作、构图和相机四大类，并利用先进工具如Depth Anything和DWPose生成深度图和人体姿态标注。结构化字幕生成阶段继承并扩展了六组件字幕格式，包括密集字幕、主体对象字幕等，通过独立生成各组件后整合形成最终结构化字幕。用户中心短提示生成阶段则通过GPT-4V在保持条件不变性的前提下，模拟用户自然表达方式生成简洁提示，最终构建了包含337K高质量实例的大规模数据集。

使用方法

使用Any2CapIns数据集时，研究者可通过输入简洁用户提示配合任意视觉条件（如图像、视频或专业条件如相机位姿），由Any2Caption框架生成结构化字幕后输入各类视频生成模型。具体流程分为三步：首先将用户提供的短文本提示T与非文本条件C=[c1,…,cn]输入Any2Caption；然后模型通过专用编码器处理不同模态条件，生成包含六个组件的结构化字幕；最后将该字幕输入现有视频生成器如CogVideoX或HunyuanVideo，无需额外微调即可提升生成质量。该方法特别适用于需要精确控制生成内容的研究场景，如电影预可视化或动画创作。

背景与挑战

背景概述

Any2CapIns数据集由Kuaishou Technology与新加坡国立大学的研究团队于2025年创建，旨在解决可控视频生成领域用户意图解析的瓶颈问题。该数据集包含33.7万实例和40.7万条件标注，通过多模态大语言模型（MLLM）将文本、图像、视频及专业信号（如区域、运动、相机位姿）转化为结构化密集描述，为视频生成器提供精准指导。其创新性在于将条件解析与视频合成步骤解耦，显著提升了现有视频生成模型在控制力和生成质量方面的表现，对影视制作、动画创作等产业应用具有重要价值。

当前挑战

该数据集面临的核心挑战包括：1) 领域问题层面，需解决多模态条件（如深度图、相机轨迹、多人身份）与文本提示的语义对齐难题，确保生成视频严格遵循复杂组合条件；2) 构建过程中，需克服非文本条件（如人体姿态序列）的标准化表示问题，并通过GPT-4V自动标注与人工校验相结合的方式保证407K条件标注的精确性。此外，结构化描述需平衡细节丰富度与生成器兼容性，避免因描述过度具体导致视频生成偏离用户意图。

常用场景

经典使用场景

Any2CapIns数据集在可控视频生成领域具有广泛的应用场景，特别是在多模态条件解析与结构化字幕生成任务中表现卓越。该数据集通过整合文本、图像、视频及专业条件（如深度图、相机位姿、人体姿态等），为模型提供了丰富的跨模态对齐样本。其经典使用场景包括：基于任意输入条件生成密集结构化字幕，进而驱动视频生成模型实现高精度控制，例如将用户提供的草图、关键帧或风格参考转化为包含场景、主体、背景、相机运动等六要素的详细描述，最终输出符合意图的动态视频内容。

解决学术问题

该数据集有效解决了可控视频生成中的核心学术问题：用户意图的精确解析与多模态条件融合的语义鸿沟。传统方法依赖扩散模型内部编码器直接处理异构输入，导致生成质量受限；而Any2CapIns通过解耦条件解析与视频合成两个阶段，利用大规模指令调优数据训练专用MLLM，显著提升了模型对复杂组合条件（如相机运动+多身份+深度序列）的联合理解能力。实验表明，其生成的结构化字幕能使各类视频生成模型的CLIP-T分数平均提升19.3%，运动平滑度提高4.8%，为学术研究提供了可靠的基准测试平台。

实际应用

在实际应用中，Any2CapIns显著降低了专业级视频创作的技术门槛。影视预可视化领域可通过相机位姿序列直接生成分镜脚本；电商场景能依据商品草图自动产生多角度展示视频；虚拟偶像行业则利用身份图像与动作序列合成个性化表演。数据集支持的六类结构化描述（密集字幕、主体、背景、相机、风格、动作）可精准匹配工业管线需求，例如广告制作中要求同时控制产品特写镜头与整体氛围风格，其生成的视频在用户调研中满意度达82.6%。

数据集最近研究