ViT-HD

Name: ViT-HD
Creator: 腾讯优图实验室, 四川大学, 复旦大学, 西部大学
Published: 2025-12-23 21:15:31
License: 暂无描述

arXiv2025-12-23 更新2025-12-25 收录

下载链接：

https://huggingface.co/datasets/zijiyingcai/ViT-HD

下载链接

链接失效反馈

官方服务：

资源简介：

ViT-HD是由腾讯优图实验室联合多所高校构建的大规模高清虚拟试穿数据集，包含15,070个分辨率为810×1080的视频样本，涵盖多样化的服装款式。该数据集通过电商平台合规采集原始数据，经过姿态序列提取、掩模视频生成等处理流程，并剔除遮挡不完整或过曝的帧以保证质量。数据内容包含服装图像、模特展示视频及对应的姿态与掩模信息，按上装、下装和全身搭配进行分类。其高分辨率特性可保留服装纹理细节，为视频虚拟试穿任务提供强有力支持，旨在解决现有数据集规模小、分辨率低导致的模型泛化能力不足问题。

ViT-HD is a large-scale high-resolution virtual try-on dataset developed by Tencent YouTu Lab in collaboration with multiple universities. It contains 15,070 video samples with a resolution of 810×1080, covering a wide range of clothing styles. The original data was collected legally from e-commerce platforms, and underwent processing pipelines including pose sequence extraction and mask video generation. Frames that are incompletely occluded or overexposed are eliminated to ensure data quality. The dataset includes clothing images, model display videos, and corresponding pose and mask information, and is categorized into three groups: tops, bottoms, and full-body outfits. Its high-resolution property preserves fine clothing texture details, providing robust support for video virtual try-on tasks. This dataset aims to address the problem of insufficient model generalization caused by the small scale and low resolution of existing datasets.

提供机构：

腾讯优图实验室, 四川大学, 复旦大学, 西部大学

创建时间：

2025-12-23

原始信息汇总

ViT-HD 数据集概述

数据集基本信息

数据集名称：ViT-HD
主要任务类别：图像到视频（image-to-video）
核心用途：视频虚拟试穿

数据集规模与内容

样本数量：15,070 个样本
服装多样性：包含 178 种不同的服装款式
分辨率：810 × 1080（高清）
视频内容质量：无起始帧过曝，主体完整性完好

关键特征与优势

大规模高清数据：相较于现有视频虚拟试穿数据集，在分辨率、服装多样性（多类别）、视频内容质量和数据规模四个维度上具有优势。
数据质量：解决了起始帧过曝问题，并保持了拍摄主体的完整性。

更新日志

2025年12月24日：大规模 ViT-HD 数据集发布。
2025年12月24日：KeyTailor 论文发布。

引用信息

如果使用本数据集，请引用以下论文： bibtex @article{he2025the, title={The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection}, author={He, Qingdong and Chen, Xueqin and Pan, Yanjie and Tang, Peng and Xu, Pengcheng and Gan, Zhenye and Wang, Chengjie and Hu, Xiaobin and Zhang, Jiangning and Wang, Yabiao}, journal={arXiv preprint arXiv:2512.20340}, year={2025} }

搜集汇总

数据集介绍

构建方式

在视频虚拟试穿领域，数据集的构建质量直接影响模型的泛化能力与生成效果。ViT-HD数据集通过从多个电子商务平台合规采集原始高分辨率视频与服装图像，并经过严格的筛选与处理流程构建而成。具体而言，每个样本包含分辨率达810×1080的模特展示视频及对应服装图像，随后利用OpenPose提取骨骼关键点序列生成姿态视频，并基于HumanParsing分割人体区域，通过修复服装区域生成服装无关的背景掩码视频。数据处理阶段进一步剔除了存在大量服装遮挡不完整或起始帧过曝的视频，确保样本在主体完整性与色彩一致性上达到高标准，最终形成涵盖上装、下装及全身搭配的15,070个高质量样本集合。

特点

ViT-HD数据集在规模与质量上均实现了显著突破，其核心特征体现在三个方面。首先，数据集以810×1080的高分辨率呈现，有效保留了服装纹理与背景细节，为模型学习细粒度动态特征提供了坚实基础。其次，样本覆盖多样化的服装类别与场景，不仅包含常规的展示视频，还涉及复杂光照与动作变化，增强了数据集的现实代表性。最后，通过严格的完整性筛选与过曝帧剔除，数据在时间维度上保持了高度的视觉一致性，减少了训练过程中的噪声干扰，为生成具有时空连贯性的试穿视频提供了可靠支撑。

使用方法

ViT-HD数据集主要用于训练与评估视频虚拟试穿模型，尤其适用于基于扩散变换器的先进框架。在使用过程中，数据集通常与姿态序列、掩码视频及服装图像共同作为多模态输入，驱动模型学习服装动态与背景保持的联合表征。研究者可依据任务需求将数据集划分为训练集与测试集，结合关键帧采样策略提取信息丰富的帧序列，以优化细节注入模块的效果。此外，该数据集的高质量标注支持定量指标如VFID、SSIM与LPIPS的全面评估，为模型在服装保真度、背景完整性及时空一致性方面的性能验证提供了权威基准。

背景与挑战

背景概述

视频虚拟试穿（Video Virtual Try-On, VVT）技术旨在通过将视频中人物的服装替换为用户指定的目标服装图像，生成自然且高保真的视频序列，同时保持跨帧的运动与视觉一致性。该技术不仅能够解决电子商务平台上消费者在线试衣的难题，也为短视频平台用户提供新颖的交互体验，因此在工业应用与学术研究中均受到广泛关注。ViT-HD数据集由腾讯优图实验室、四川大学、复旦大学及西安大略大学的研究团队于2025年共同创建，其核心研究问题在于提升视频虚拟试穿中服装动态细节的还原度与背景区域的一致性。该数据集包含15,070个高质量视频样本，分辨率达810×1080，覆盖多样化的服装款式，显著扩展了现有数据资源的规模与质量，为基于扩散变换器（DiT）的先进方法提供了关键的训练与评估基础，对推动视频虚拟试穿领域向高保真、高效率方向发展具有重要影响力。

当前挑战

ViT-HD数据集致力于解决视频虚拟试穿领域的两大核心挑战：一是服装动态细节的精细还原，现有方法在连续帧中难以充分捕捉服装的背面纹理、运动褶皱及光照依赖的细微变化，导致生成结果过于平滑且缺乏真实感；二是背景区域的一致性保持，仅依赖服装无关视频作为背景条件常引发细节丢失、时间不一致及环境结构偏离等问题，影响合成视频的整体真实感。在构建过程中，研究团队面临数据稀缺与质量不足的挑战：现有公开数据集规模有限、分辨率较低，且多局限于简单场景，难以支撑大规模高分辨率视频生成模型的训练。为此，ViT-HD从多个电子商务平台自主收集原始数据，并通过严格的过滤与后处理流程，确保样本具有高分辨率、多样化的服装风格以及完整的主题完整性，从而为模型提供充足且高质量的训练资源。

常用场景

经典使用场景

在视频虚拟试穿领域，ViT-HD数据集作为大规模高清基准，常被用于训练和评估基于扩散变换器的先进模型。该数据集通过提供高分辨率视频样本，支持模型在复杂动态场景下学习服装细节与背景一致性的联合建模，为生成逼真且自然的试穿视频奠定数据基础。

实际应用

在实际应用中，ViT-HD数据集为电子商务平台的在线虚拟试穿系统提供了关键数据支持，使用户能够通过视频直观评估服装的上身效果。同时，该数据集也推动了短视频平台中沉浸式试穿体验的开发，为个性化内容生成与交互式营销场景提供了技术实现可能。

衍生相关工作

基于ViT-HD数据集，学术界衍生出多项经典研究工作，例如KeyTailor框架通过关键帧驱动的细节注入策略优化了服装动态与背景完整性。此外，该数据集还支撑了MagicTryOn、CatV2TON等先进模型的性能验证与比较，为视频虚拟试穿领域的算法创新与基准建立提供了重要资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集