Tiger200K Dataset
收藏github2025-04-26 更新2025-04-30 收录
下载链接:
https://github.com/TinyTigerPan/tiger200k
下载链接
链接失效反馈官方服务:
资源简介:
Tiger200K是一个手动整理的高视觉质量视频数据集,来源于用户生成内容(UGC)平台。通过优先考虑视觉保真度和美学质量,Tiger200K强调了人类专业知识在数据整理中的关键作用,并提供了一个简单但有效的流程,为微调和优化视频生成架构提供高质量、时间一致的视频-文本对。该数据集将持续扩展,并作为开源项目发布,以推动视频生成模型的研究和应用。
Tiger200K is a manually curated video dataset with high visual quality, sourced from user-generated content (UGC) platforms. By prioritizing visual fidelity and aesthetic quality, Tiger200K underscores the crucial role of human expertise in dataset curation and provides a simple yet effective process for fine-tuning and optimizing video generation architectures with high-quality, temporally consistent video-text pairs. The dataset will continue to expand and be released as an open-source project to promote research and applications of video generation models.
创建时间:
2025-04-25
原始信息汇总
Tiger200K Dataset 概述
数据集简介
- 名称:Tiger200K
- 类型:手动筛选的高视觉质量视频数据集
- 来源:用户生成内容(UGC)平台
- 特点:注重视觉保真度和美学质量,提供高质量、时间一致的视频-文本对
- 用途:用于微调和优化视频生成架构
- 开放计划:将持续扩展并作为开源项目发布
数据集内容
-
数据结构:
├── meta_csv │ └── tiger200k_batch0.csv │ ├── videos │ ├── clips │ │ ├── BV1134y1E7P5 │ │ │ ├── BV1134y1E7P5_secen1_cut1.mp4 │ │ │ ├── BV1134y1E7P5_secen1_cut2.mp4 │ │ │ └── ... │ │ ├── BV114411z7v9 │ │ │ ├── BV1134y1E7P5_secen1_cut1.mp4 │ │ │ ├── BV1134y1E7P5_secen2_cut1.mp4 │ │ │ └── ... │ │ └── ... │ │ │ └──source │ ├── BV1134y1E7P5.mp4 │ ├── BV114411z7v9.mp4 │ └── ...
使用限制
- 许可:仅限非商业用途
- 注意事项:
- 用户需自行处理源视频获取和版权问题
- 数据集中的质量和分辨率信息对应于视频平台上的最高可观看质量
数据准备步骤
- 下载元数据csv:从Hugging Face下载到
meta_csv目录 - 下载源视频:使用bilibili-downloader根据bvid下载视频,保存到
videos/source目录 - 切割视频:运行
python cut_videos.py --meta-path meta_csv/tiger200k_batchxxx.csv切割源视频为片段
相关资源
- 技术报告:arXiv论文
- 项目页面:Tiger200K Project Page
- 数据集地址:Hugging Face
引用格式
bibtex @article{zhou2025tiger200k, title={Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform}, author={Zhou, Xianpan}, journal={arXiv preprint arXiv:2504.15182}, year={2025} }
最新动态
- 2025年4月26日:发布tiger200k数据集及数据准备脚本
- 2025年4月21日:发布论文和预览数据集
- 未来计划:将持续扩展数据集并不定期发布
搜集汇总
数据集介绍

构建方式
Tiger200K数据集作为用户生成内容(UGC)领域的高质量视频资源库,其构建过程体现了严谨的人工筛选机制。研究团队从主流视频平台精选原始素材,通过专业评审确保每段视频的视觉保真度与美学品质达标。数据集采用两级存储结构,原始视频经BV号标识后存放于source目录,再通过自动化脚本按场景切割为标准化片段,最终形成20万条时序一致的视频-文本对。这种构建方式既保留了UGC内容的多样性,又通过人工干预提升了数据的可用性。
特点
该数据集的核心价值在于其卓越的视觉质量与精细的标注体系。所有视频素材均经过专业策展人的多维度评估,包括分辨率稳定性、色彩还原度等工业级标准。不同于自动化爬取的海量数据,Tiger200K每个样本都具备精确的场景分割标记和对应的自然语言描述,为视频生成模型的细粒度训练提供了理想素材。数据集采用模块化存储设计,原始视频与处理后的片段层级清晰,这种结构既便于研究者按需调用,也为后续数据扩展预留了空间。
使用方法
研究者可通过HuggingFace平台获取包含视频元信息的CSV文件,按照BV号索引使用指定下载工具获取原始视频。数据集配套提供自动化处理脚本,能够根据元数据中的时间戳将长视频精准切割为场景片段。使用前需特别注意版权限制,所有素材仅限非商业研究用途。为保持数据完整性,建议严格遵循项目推荐的目录结构,原始视频存放于videos/source目录,切割后的片段自动生成于clips子目录,这种标准化流程确保后续模型训练的输入一致性。
背景与挑战
背景概述
Tiger200K数据集由研究人员周贤潘于2025年推出,是一个专注于高质量用户生成内容(UGC)视频的手工精选数据集。该数据集旨在为视频生成模型的微调和优化提供高质量、时间一致的视频-文本对。通过强调视觉保真度和美学质量,Tiger200K突显了人类专业知识在数据整理中的关键作用。其开源特性进一步推动了视频生成领域的研究与应用发展,相关技术细节发表在arXiv预印本平台上。
当前挑战
Tiger200K数据集面临的挑战主要集中在两个方面:领域问题方面,该数据集致力于解决视频生成模型中高质量训练数据稀缺的问题,尤其是如何确保视频内容的视觉一致性与美学价值;构建过程方面,数据集的创建需克服用户生成内容平台的版权问题、视频源获取的技术难题,以及手工筛选大规模数据所需的人力成本。此外,保持数据集的持续更新与扩展亦是一项长期挑战。
常用场景
经典使用场景
Tiger200K数据集作为高质量用户生成内容(UGC)视频数据集,广泛应用于视频生成模型的微调与优化。其精心筛选的视频文本对不仅确保了视觉保真度,还提供了时间一致性,为研究人员在视频生成、编辑和增强任务中提供了可靠的基准数据。该数据集特别适合用于生成对抗网络(GANs)和扩散模型等先进视频生成架构的训练与评估。
衍生相关工作
基于Tiger200K数据集,研究者们已开展了多项经典工作,包括视频生成模型的微调框架、跨模态对齐算法以及数据质量评估指标的设计。这些工作不仅验证了数据集的有效性,还进一步拓展了其在视频内容分析、生成与控制等子领域的应用边界,为后续研究奠定了坚实基础。
数据集最近研究
最新研究方向
在视频生成模型领域,高质量视频文本对的稀缺性一直是制约模型性能提升的关键瓶颈。Tiger200K数据集通过精心筛选用户生成内容平台中的优质视频,构建了具有视觉一致性和美学价值的大规模视频文本数据集,为视频生成架构的微调和优化提供了重要支撑。当前研究热点集中在如何利用此类高质量数据集提升生成视频的时序连贯性和视觉保真度,特别是在文本到视频生成任务中实现更精准的语义对齐。该数据集的开放不仅推动了生成式人工智能在影视创作、广告设计等领域的应用探索,也为研究人工标注在数据筛选中的价值提供了实证基础。
以上内容由遇见数据集搜集并总结生成



