Tiger200K

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://tinytigerpan.github.io/tiger200k/

下载链接

链接失效反馈

官方服务：

资源简介：

Tiger200K是一个由用户生成内容平台精选的高质量视频数据集，旨在为开源社区提供高质量的视频数据。该数据集经过严格的视觉和审美质量筛选，包含17万个经过人工审核和自动处理流程筛选的视频剪辑，适用于视频生成模型的后训练和质量调优。数据集涵盖了从不同用户那里精选出来的高质量视频，并提供了高质量的双语（中英）细粒度字幕。

Tiger200K is a high-quality video dataset curated from user-generated content platforms, aiming to provide high-quality video data for the open-source community. This dataset has undergone strict visual and aesthetic quality filtering, containing 170,000 video clips screened via manual review and automated processing workflows, and is suitable for post-training and quality tuning of video generation models. The dataset includes high-quality videos selected from various users, and provides high-quality bilingual (Chinese and English) fine-grained subtitles.

提供机构：

未知

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

Tiger200K数据集通过精心设计的数据处理流程构建，其核心在于从用户生成内容（UGC）平台手动筛选高质量视频源。采用TransNetV2深度学习模型进行场景边界检测与分割，结合OCR文本识别、黑边检测技术确定视频安全区域，并通过Farneback稠密光流算法筛选有效运动片段。每个视频片段经过专业人工审核后，使用最先进的视觉大语言模型Qwen2.5-VL生成中英双语细粒度描述，形成严格质量控制的视频-文本对。

特点

该数据集以卓越的视觉保真度和美学质量为核心特征，85%以上的视频片段保留原始85%以上的安全区域面积。数据源覆盖BiliBili平台最新4K/HDR内容，50%视频达到4K或更高分辨率，平均每个源视频仅产出40个经多级质量过滤的片段。双语字幕长度呈正态分布，英文约80词、中文约150字，为视频生成模型提供时空一致性强的训练素材。

使用方法

Tiger200K专为视频生成模型的微调与质量优化设计，可直接用于监督式微调（SFT）阶段。研究人员可通过解析视频片段与对应双语字幕的映射关系，构建端到端的文本-视频生成训练任务。数据集提供的安全区域标注支持高质量画面裁剪，而光学流筛选的片段能有效增强模型对时空关系的理解。建议结合扩散模型架构，利用其细粒度字幕提升生成内容的提示跟随能力。

背景与挑战

背景概述

Tiger200K数据集由Xianpan Zhou等人于2025年提出，旨在解决开源文本到视频生成模型对高质量训练数据的需求问题。该数据集从用户生成内容（UGC）平台手动筛选高质量视频，通过专业的数据处理流程，包括镜头边界检测、OCR处理、边框检测、运动过滤和双语字幕生成，构建了一个包含高质量视频-文本对的数据集。Tiger200K的推出填补了开源社区在高质量视频数据方面的空白，为视频生成模型的微调和优化提供了重要资源。该数据集的影响力主要体现在推动了视频生成模型的研究和应用，尤其是在高分辨率和高质量视频生成任务中。

当前挑战

Tiger200K数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决视频生成模型对高质量训练数据的需求，但现有开源数据集如Koala-36M在视觉质量上存在不足，无法满足高质量视频生成模型的微调需求。在构建过程中，挑战包括：1) 高质量视频的手动筛选和标注需要大量人力和资源；2) 镜头边界检测算法在处理交叉溶解等复杂过渡时效果不佳；3) 安全区域的确定需要复杂的OCR和边框检测技术；4) 视频字幕生成需要依赖先进的大规模视觉语言模型。这些挑战在数据集的构建过程中得到了逐步解决，但仍需进一步优化以提高数据质量和处理效率。

常用场景

经典使用场景

在计算机视觉领域，高质量视频数据集的稀缺性一直是制约文本到视频生成模型发展的关键瓶颈。Tiger200K作为首个从UGC平台人工精选的高质量视频数据集，其核心应用场景聚焦于视频生成模型的微调阶段。通过提供视觉保真度高、时间一致性强的视频-文本对，该数据集能够显著提升开源模型在视频内容生成中的细节还原能力，特别是在光影效果、材质纹理等需要高训练数据质量的视觉元素生成方面展现出独特价值。

衍生相关工作

Tiger200K的发布催生了多个视频生成领域的创新研究。以LTX-Video为代表的实时潜在扩散模型通过适配该数据集的双语标注系统，实现了跨语言提示的精准响应；CustomCrafter等定制化视频生成框架则利用其高质量时空一致性数据，开发出了保留运动特征的概念组合技术。值得注意的是，该数据集的安全区域标注标准已被Wan、HunyuanVideo等主流开源项目采纳为视频预处理规范，形成了广泛的技术辐射效应。

数据集最近研究