TripVVT-10K

Name: TripVVT-10K
Creator: 南京大学; 九天研究院·中国移动通信; 吉林大学; 字节跳动
Published: 2026-04-30 22:53:44
License: 暂无描述

arXiv2026-04-30 更新2026-05-02 收录

下载链接：

https://shaodingbao.github.io/TripVVT/

下载链接

链接失效反馈

官方服务：

资源简介：

TripVVT-10K是由南京大学等机构联合构建的首个大规模野外视频虚拟试穿三元组数据集，包含10,031个高分辨率（720×1280）视频样本，覆盖30种服装类别及复杂室外场景。该数据集通过自动化合成流程构建，原始视频经网络爬取后，采用Wan-Animate框架生成服装交换视频，并结合Nano Banana技术提取服装参考图像。其核心价值在于提供了视频级跨服装监督信号，解决了现有数据缺乏真实场景多样性的问题，主要应用于电子商务、数字人创建等领域的虚拟试穿技术研发。

TripVVT-10K is the first large-scale outdoor video virtual try-on triplet dataset jointly developed by Nanjing University and other institutions. It includes 10,031 high-resolution (720×1280) video samples spanning 30 clothing categories and complex outdoor scenarios. Constructed through an automated synthesis pipeline, this dataset first crawls raw videos from the web, then utilizes the Wan-Animate framework to generate clothing-swapped videos, and leverages the Nano Banana technology to extract clothing reference images. Its core contribution is providing video-level cross-clothing supervision signals, which solves the problem that existing datasets lack diversity in real-world scenarios. This dataset is primarily applied to the research and development of virtual try-on technologies in fields such as e-commerce and digital human creation.

提供机构：

南京大学; 九天研究院·中国移动通信; 吉林大学; 字节跳动

创建时间：

2026-04-30

原始信息汇总

数据集概述：TripVVT-10K

数据集名称：TripVVT-10K
数据集地址：https://shaodingbao.github.io/TripVVT/

核心描述：
TripVVT-10K 是当前规模最大、多样性最丰富的真实场景（in-the-wild）三元组数据集，专门用于视频虚拟试穿（Video Virtual Try-On）任务。该数据集提供了明确的视频级跨服装监督信号，弥补了现有视频数据集在这方面的缺失。

数据集构成：

每个三元组包含：原始视频（Original Video）、服装参考图（Garment Reference）、试穿视频（Try-on Video）。
数据通过合成管道生成：从真实世界源视频出发，先生成服装交换的锚点帧，再结合姿态序列，通过蒙版修复生成“原始”版本；同时通过图像到服装合成生成标准商品图；原始源视频作为真值试穿目标。
管道确保了生成三元组的时空一致性。

数据预览：
数据集中包含多种服装类型示例，如：

上身服装（upper body）：例如雨夜城市步道上的女性，身着黑色高开叉中裙；阳光露台场景中的女性，身着黑色修身服装。
连衣裙（dresses）：夜晚城市环境中，身着浅绿色缎面吊带裙的女性。

配套基准（TripVVT-Bench）：

包含100个测试案例，覆盖多种服装、复杂环境及多人场景。
评价指标涵盖：视频质量、试穿保真度、背景一致性、时间连贯性。

与基线方法对比：

TripVVT（基于扩散Transformer的框架）取代了脆弱的服装蒙版，采用简单稳定的人体蒙版先验，在真实世界运动、遮挡和杂乱场景中仍能保持可靠背景保留。
在视频质量和服装保真度上优于当前最优的学术和商业系统，且在真实环境视频上的泛化能力显著提升。

搜集汇总

数据集介绍

构建方式

TripVVT-10K数据集的构建始于从网络爬取约2万段真实户外人体视频，经分辨率归一化与质量过滤后，保留高质量片段作为源视频。研究团队采用逆向训练范式，将真实源视频作为试穿视频的标签，而合成的换装视频则作为模型输入。具体而言，首先利用DressCode数据集随机采样服装，借助Gemini-2.5-Flash生成精准文本描述，再通过Nano Banana合成高保真换装首帧。随后，基于ViT-Pose提取的姿态序列与SegFormer生成的衣物掩码，由Wan-Animate执行引导式修补，生成时序连贯的换装视频作为原始视频。同时，从源视频首帧提取人体区域，经RMBG-2.0背景去除后，由Nano Banana重建标准化的正品服饰参考图像。最终通过自动与人工两阶段过滤，剔除低质量样本，构成包含10,031组三元组的数据集。

使用方法

TripVVT-10K主要服务于基于扩散变换器的视频虚拟试穿框架TripVVT的训练与评估。使用时，模型以原始视频、人体掩码视频及姿态序列为输入，通过变分自编码器提取时空特征，并与掩码特征拼接，同时将服装参考图像经编码器生成服装令牌，共同注入DiT主干网络。训练采用三阶段渐进策略，逐步提升数据多样性与分辨率。为促进标准化评测，研究团队从数据集中隔离出100组高难度样本构成TripVVT-Bench，涵盖视频质量、试穿保真度、背景一致性与时间连贯性四个维度的评价指标，支持与其他学术模型及商业系统的公平对比。数据集及其配套基准已开源，可直接用于学术研究与模型性能验证。

背景与挑战

背景概述

视频虚拟试穿技术旨在无缝地将指定服装替换到视频人物的身上，同时保持身份、姿态、运动和背景等关键属性。该技术在电子商务、数字人创建及元宇宙等领域具有广阔的应用前景。然而，现有研究多受限于室内或受控场景，缺乏大规模、高分辨率、且覆盖复杂真实世界场景的野外视频三元组数据，导致模型在多样化的现实环境中泛化能力严重不足。为突破这一瓶颈，南京大学、中国移动九天研究院、吉林大学及字节跳动等机构的研究人员于2026年共同构建了TripVVT-10K数据集。该数据集是目前规模最大、最多样化的野外视频虚拟试穿三元组数据集，包含10,031个由“原始视频、服装参考图、试穿视频”组成的三元组，涵盖30种服装类别及多种复杂户外场景。该数据集的提出填补了视频级跨服装监督的空白，为训练鲁棒且时序连贯的视频虚拟试穿模型奠定了坚实基础，并推动了该领域从室内研究向实际应用的跨越。

当前挑战

视频虚拟试穿技术面临双重挑战。在领域问题层面，现有方法主要分为基于遮罩和无遮罩两种范式。基于遮罩的方法依赖精细的服装遮罩来限定编辑区域，但此类遮罩在野外视频中因姿态变化、遮挡及光照波动而极易失效，导致伪影或背景失真；无遮罩方法虽摆脱了对遮罩的依赖，却常因缺乏明确的空间约束而意外篡改背景区域，难以保证背景完整性。此外，大多数方法仅在室内视频场景中表现良好，在光线昏暗、行人拥挤、背景杂乱的真实世界中效果急剧下降，对动态运动、非站立姿态及多人场景的处理尤为脆弱。在数据集构建过程中，挑战同样严峻：如何从网络爬取的海量视频中筛选出高质量片段，并设计自动化流水线高效合成时空一致的三元组数据，同时确保生成的服装参考图与原始视频中的衣物在纹理、颜色和结构上高度一致，是构建高质量数据集的核心难题。

常用场景

经典使用场景

TripVVT-10K作为首个大规模、高分辨率的野外视频三元组数据集，其经典使用场景在于为视频虚拟试穿模型提供全监督训练和评估的基石。研究者可以利用该数据集中包含的⟨原始视频, 服装参考, 试穿视频⟩三元组结构，训练模型在复杂户外环境中实现稳健的服装替换，尤其适用于处理低光照、动态姿态、密集人群及多人物交互等极具挑战性的真实世界条件。数据集涵盖上装、下装及全身共30种服装类别，确保了模型对不同品类衣物的泛化能力，为从受控工作室场景向无约束现实应用的跨越提供了关键数据支撑。

解决学术问题

该数据集解决了视频虚拟试穿领域长期缺乏大规模、多样化野外三元组数据的核心瓶颈，使得原本受限于室内静态场景的学术研究得以拓展至真实复杂环境。具体而言，它攻克了现有方法在非定点拍摄条件下因缺乏跨服装显式监督而难以精确编辑的问题，为探究服装掩膜脆弱性、背景保持与时间一致性之间的权衡提供了实验基础。TripVVT-10K的发布推动了视频虚拟试穿从依赖精确但易碎的服装掩膜向稳健的人体掩膜先验过渡，促进了扩散Transformer等架构在该领域的应用，并建立了包含视频质量、试穿保真度、背景保持及时间连贯性的多维评估标准，从而系统性地提升了野外视频试穿的性能上限。

实际应用

在实际应用层面，TripVVT-10K所驱动的视频虚拟试穿技术可无缝嵌入电商直播、短视频内容创作及元宇宙数字人定制等场景。例如，消费者在动态购物视频中能够预览任意参考服装上身后的真实效果，无需实际穿戴即可判断款式与动作的适配度。该数据集训练的模型尤其擅长处理户外行走、转身或动作幅度较大的情形，能够保持背景原貌并生成时空一致的试穿序列，显著降低了传统抠图或手工编辑的成本。此外，面向多人物复杂背景的能力使其适用于街拍、时尚秀场视频的批量处理，为服装品牌提供高效的内容生产与个性化推荐工具。

数据集最近研究