ViMix-14M

github2025-11-23 更新2025-11-24 收录

下载链接：

https://github.com/yangtiming/ViMix-14M

下载链接

链接失效反馈

官方服务：

资源简介：

ViMix-14M是一个精选的多源视频-文本数据集，包含约1400万对样本，提供无需爬取、可直接下载的访问方式，具有高质量、时间对齐的长文本描述。该数据集通过合并多个开放视频源，经过统一去重和质量过滤，并采用多粒度、真值引导的重标注流程，使描述更精确地匹配视频中的动作、场景和时间结构。

ViMix-14M is a curated multi-source video-text dataset consisting of approximately 14 million sample pairs. It provides directly downloadable access without the need for web crawling, and boasts high-quality, time-aligned long textual descriptions. This dataset is developed by integrating multiple open video sources, undergoing unified deduplication and quality filtering, and adopting a multi-granularity, ground-truth guided re-annotation pipeline to enable the descriptions to accurately match the actions, scenes and temporal structures within the corresponding videos.

创建时间：

2025-11-23

原始信息汇总

ViMix-14M 数据集概述

数据集基本信息

名称: ViMix-14M
类型: 视频-文本多模态数据集
规模: 约1400万视频-文本对
总时长: 22.8千小时
平均视频长度: 6.0秒
数据来源: 多源融合（InternVid、VideoUFO、VidGen-1M、Kinetics-700、Something-Something V2、OpenVideo、UCF-101）

核心特征

免爬取访问: 提供直接下载，无需手动YouTube爬取
高质量长文本描述: 包含丰富的视觉细节描述
多粒度标注: 短文本（~14词）、中文本（~51词）、长文本（~110词）三个粒度
严格质量过滤: 统一去重和质量过滤流程
重标注流程: 基于真实标注的多粒度重标注管道

数据组成统计

数据源	视频数量	总时长(小时)	平均长度(秒)
InternVid	10.6M	16.3K	5.5
VideoUFO	1.09M	2.12K	7.0
VidGen-1M	1.00M	2.26K	8.1
Kinetics-700	0.63M	1.58K	9.0
Something-Something V2	0.22M	234	3.8
OpenVideo	0.11M	331	11.2
UCF-101	0.01M	26.6	7.2

质量优势

语义丰富度: 在对象属性、颜色、空间关系、数量、动作、相对比较和语义推理等多个维度表现优异
视频生成质量: 标注粒度与生成质量正相关（Origin < Short < Middle < Long）
视频问答能力: 支持对象识别、属性识别、空间定位和场景理解等多种问题类型

技术细节

实现框架: PyTorch
许可证: Apache 2.0
数据访问: https://huggingface.co/datasets/Timing1/ViMix-14M
论文: https://arxiv.org/abs/XXXX.XXXXX

应用场景

多模态检索
文本到视频生成
视频问答任务
视频基础模型训练和微调

搜集汇总

数据集介绍

构建方式

在视频文本数据资源日益成为多模态研究核心的背景下，ViMix-14M通过整合InternVid、VideoUFO、VidGen-1M等七个开放视频源，构建了约1370万对视频文本样本。该数据集采用统一去重与质量过滤机制，并设计了一种基于真实场景引导的多粒度重标注流程，精准优化描述内容以匹配视频中的动作细节、空间关系与时间结构，从而确保了数据的高一致性与语义完整性。

使用方法

针对开源视频生成与理解模型的研究需求，ViMix-14M支持直接下载使用，无需爬取过程。用户可通过多模态检索、文本到视频生成及视频问答等任务验证其效能，实验表明不同粒度的标注层级（Origin→Short→Middle→Long）可显著提升生成视频的语义一致性与视觉保真度，为训练大规模视频基础模型提供了标准化数据接口。

背景与挑战

背景概述

随着Sora等模型推动文本到视频生成领域的快速发展，开源模型面临高质量视频-文本数据稀缺的核心瓶颈。约翰斯·霍普金斯大学研究团队于2025年推出ViMix-14M数据集，通过整合InternVid、VideoUFO等七大多源开放视频资源，构建包含1370万视频-文本对的大规模语料库。该数据集突破传统依赖YouTube爬取的数据构建模式，采用去重过滤与多粒度重标注技术，致力于解决视频内容与文本描述语义对齐的关键问题，为视频基础模型训练提供标准化数据支撑。

当前挑战

在视频-文本数据领域，现有数据集普遍存在描述文本简短泛化、视频来源版权模糊、数据获取依赖动态爬取等核心难题。ViMix-14M构建过程中需攻克多源数据格式统一、跨数据集内容去重、长文本标注质量保障等关键技术挑战。通过设计真值引导的重标注流程，实现动作细节、时空关系等多维语义的精准捕捉，最终形成覆盖22800小时时长的标准化数据集，为视频理解与生成任务建立新基准。

常用场景

经典使用场景

在视频-文本多模态研究领域，ViMix-14M数据集最经典的应用场景是作为文本到视频生成模型的训练基础。该数据集通过整合多个开源视频源并经过严格的质量筛选，为模型提供了14.7万小时的视频文本对，其中包含长文本、高质量且与视频内容紧密对齐的描述。这些描述涵盖了精确的空间关系、物体属性、动作状态和运动细节，显著提升了生成视频的语义丰富度和视觉质量。研究显示，从原始描述到长文本描述的渐进式细化过程中，视频生成质量呈现出明显的层次提升。

解决学术问题

ViMix-14M有效解决了视频-文本多模态研究中的关键瓶颈问题。传统数据集依赖YouTube爬取，面临链接失效、访问限制和版权不确定性等挑战，导致可用数据量有限。该数据集通过多源融合、去重过滤和基于真实标注的重描述流程，构建了可直接下载的大规模高质量语料。其长文本描述显著提升了多模态检索、文本到视频生成和视频问答等任务的性能，为开源视频基础模型的训练和微调提供了可靠的数据支撑，推动了视频理解与生成技术的标准化发展。

实际应用

在实际应用层面，ViMix-14M为智能视频编辑、教育内容生成和虚拟现实场景构建提供了重要数据基础。其高质量的视频文本对能够训练出精准理解视觉语义的模型，支持自动视频摘要生成、交互式教育视频制作以及动态场景重建等任务。特别是在需要细粒度视觉描述的应用中，如医疗教学视频分析或工业流程监控，数据集提供的丰富语义标注能够显著提升模型对复杂场景的解析能力，为多行业智能化转型提供技术赋能。

数据集最近研究