TimingYang/ViMix-14M

Name: TimingYang/ViMix-14M
Creator: TimingYang
Published: 2026-05-01 21:39:31
License: 暂无描述

Hugging Face2026-05-01 更新2025-12-20 收录

下载链接：

https://hf-mirror.com/datasets/TimingYang/ViMix-14M

下载链接

链接失效反馈

官方服务：

资源简介：

ViMix-14M是一个大规模的视频-文本数据集，包含约1400万个视频-文本对，具有多粒度字幕，旨在解决文本到视频生成中的数据瓶颈问题。该数据集通过合并多种开放视频源，经过统一的去重和质量过滤，以及多粒度、基于真实情况的重新字幕管道，优化了描述以更好地匹配动作、场景和时间结构。数据集的总视频数为1370万，总时长为22.8千小时，平均时长为6.0秒。字幕长度分为短（14.4词）、中（50.6词）和长（109.8词）三种。数据集的来源包括InternVid-10M-FLT、VideoUFO、VidGen-1M、Kinetics-700、Something-Something V2、OpenVideo和UCF-101等。

ViMix-14M is a large-scale video-text dataset containing ~14 million video-text pairs with multi-granularity captions, designed to address the data bottleneck in text-to-video generation. The dataset is built by merging diverse open video sources, followed by unified de-duplication and quality filtering, and a multi-granularity, ground-truth-guided re-captioning pipeline that refines descriptions to better match actions, scenes, and temporal structure. The total number of videos is 13.7M, with a total duration of 22.8K hours and an average duration of 6.0 seconds. Caption lengths are categorized into short (14.4 words), middle (50.6 words), and long (109.8 words). Source datasets include InternVid-10M-FLT, VideoUFO, VidGen-1M, Kinetics-700, Something-Something V2, OpenVideo, and UCF-101.

提供机构：

TimingYang

搜集汇总

数据集介绍

构建方式

ViMix-14M的构建源自对当前开源文本到视频生成领域数据瓶颈的深刻洞察。该数据集通过整合InternVid-10M-FLT、VideoUFO、VidGen-1M、Kinetics-700、Something-Something V2、OpenVideo及UCF-101等七个公开视频源，汇聚了约1370万个视频-文本对。在融合过程中，研究团队实施了统一的去重与质量过滤策略，剔除冗余与低质样本。更进一步，为了弥合原始描述与视频内容之间的语义鸿沟，ViMix-14M引入了一套多粒度、真实标签引导的重标注管线，能够自动生成紧密对齐动作、场景及时序结构的短、中、长三种粒度的描述，从而显著提升了数据集的语义丰富度与标注质量。

特点

ViMix-14M最显著的特征在于其无爬取、即下载的便捷访问模式，彻底规避了传统YouTube手动采集链路中的链接失效与访问限制问题。该数据集不仅规模庞大，涵盖1370万视频片段、总时长超过2.28万小时，且每个视频均附带了三种粒度（短、中、长）的英文描述，平均词数分别为14.4、50.6及109.8，能够全面捕捉从简单动作到复杂时空关系的多层级语义。此外，每个样本还包含了来源标注、视频时长、起止时间戳以及基于VBench的视频质量评估分数，为后续的视频理解与生成任务提供了丰富的附属信息，兼具通用性与结构化优势。

使用方法

ViMix-14M的设计充分考虑了实际应用中的便利性。用户可通过Hugging Face直接获取标注元数据文件（ViMix-14M_subset100.json），其中的每个样本都提供了唯一的视频标识符与来源数据集名称，使用者需依据这些信息从对应源数据集的官方存储库（如OpenXLab或Hugging Face）下载原始视频文件。数据集支持直接用于多模态检索、文本到视频生成以及视频问答等下游任务的训练与评估。对于视频生成任务，建议利用其多粒度标注体系，根据需求选择合适粒度的描述作为条件输入；对于理解类任务，则可结合短、中、长描述与视频质量分数进行多视角建模，以提升模型语义对齐能力。

背景与挑战

背景概述

随着Sora等模型的出现，文本到视频生成领域迎来了蓬勃发展，然而开源模型长期面临高质量视频-文本数据匮乏的瓶颈。现有公开数据集多依赖手动从YouTube爬取，受限于链接失效、访问限制及许可不确定性，实际可用量极低。为应对这一挑战，由Timing Yang、Sucheng Ren、Alan Yuille和Feng Wang等研究人员于2025年提出的ViMix-14M数据集，通过融合InternVid-10M-FLT、VideoUFO、VidGen-1M等多个开放视频源，经统一去重与质量过滤，并引入多粒度、真实标签引导的重新描述流水线，构建了约1400万对的无爬取、可直接下载的高质量视频-文本语料库。该数据集在多项评测中展现了优于同类数据的性能，为推动开源视频基础模型的训练与微调提供了关键支撑。

当前挑战

ViMix-14M旨在解决文本到视频生成领域的数据瓶颈问题，其核心挑战在于现有数据集获取困难、质量参差不齐。构建过程面临多重难点：首先，多源数据融合需克服格式、标注不一致等异构性问题；其次，大规模去重与质量过滤需在保留多样性的同时剔除低质样本；再者，设计多粒度、真实标签引导的重新描述流水线，需确保长文本描述与视频的动作、场景及时间结构紧密对齐。此外，数据集需平衡规模与标注精度，避免引入噪声，同时保障数据许可的合规性，为下游任务提供可靠、可复现的基础资源。

常用场景

经典使用场景

ViMix-14M作为大规模视频-文本配对数据集，最经典的使用场景是驱动文本到视频（Text-to-Video）生成模型的训练与微调。该数据集汇聚了约1400万个高质量的视频-文本对，并提供了短、中、长三种粒度的描述性标注，为模型捕捉视频中精细的动作、场景与时间结构提供了丰富的监督信号。在生成任务中，研究者可利用其长句描述增强视频的内容连贯性与语义对齐度，从而显著提升生成视频的真实感和可控性。

实际应用

在实际应用中，ViMix-14M可广泛服务于视频内容生成平台、智能视频编辑工具以及多模态交互系统的构建。例如，在短视频创作与广告制作场景中，基于该数据集训练的模型能够根据自然语言描述自动生成符合预期动作与视觉风格的视频片段，极大降低人工拍摄与后期成本。此外，该数据集也可赋能视频检索系统，通过多粒度描述实现更精准的视频内容匹配，提升用户体验。

衍生相关工作

ViMix-14M的发布引发了一系列衍生工作，包括基于其数据构建的视频理解与生成基准测试、多模态检索改进方法以及更高效的视频-文本对齐模型。研究者利用该数据集重新标注了InternVid-10M-FLT、VideoUFO等源数据集，并验证了在VBench等评测指标上的性能提升。此外，该工作还启发了后续关于长视频描述生成与跨域视频数据集融合的研究，为构建通用视频基础模型奠定了数据层面的基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集