CI-VID

Name: CI-VID
Creator: 北京人工智能研究院, 北京邮电大学
Published: 2025-07-03 01:48:01
License: 暂无描述

arXiv2025-07-03 更新2025-07-04 收录

下载链接：

https://github.com/ymju-BAAI/CI-VID

下载链接

链接失效反馈

官方服务：

资源简介：

CI-VID数据集是一个包含超过34万个样本的文本视频数据集，每个样本由一系列视频片段和文本描述组成，旨在支持连贯的多场景视频序列生成。该数据集由北京人工智能研究院和北京邮电大学的研究人员创建，视频片段来自YouTube上超过4000个精心挑选的频道，经过严格的筛选以确保视频质量。CI-VID数据集通过构建连贯的文本-视频序列，为文本和视频到视频的生成模型提供了训练数据，这些模型能够生成具有平滑视觉转换和强时间一致性的故事驱动内容。

The CI-VID dataset is a text-video dataset comprising over 340,000 samples, each of which consists of a sequence of video clips and textual descriptions, and is designed to support coherent multi-scene video sequence generation. Developed by researchers from the Beijing Academy of Artificial Intelligence and Beijing University of Posts and Telecommunications, the dataset sources its video clips from more than 4,000 carefully curated YouTube channels, with strict filtering conducted to ensure high video quality. By constructing coherent text-video sequences, the CI-VID dataset provides training data for text-to-video and video-to-video generation models, which are capable of generating story-driven content featuring smooth visual transitions and strong temporal consistency.

提供机构：

北京人工智能研究院, 北京邮电大学

创建时间：

2025-07-03

原始信息汇总

CI-VID: 连贯交错文本视频数据集概述

📌 数据集简介

名称: CI-VID (Coherent Interleaved Text-Video Dataset)
类型: 大规模文本-视频交错数据集
规模: 超过340,000条交错视频片段与丰富字幕序列
设计目的: 支持连贯多片段视频生成（TV2V），超越传统孤立片段-字幕对（T2V）数据集
核心特性:
- 学习片段内内容与片段间过渡
- 促进具有强时间与视觉连贯性的故事驱动生成

📂 数据内容

字幕下载: https://flagchat.ks3-cn-beijing.ksyuncs.com/runway_log/all_train_samples.jsonl
视频下载: https://flagchat.ks3-cn-beijing.ksyuncs.com/runway_log/ymju_interleve/
可视化样本: 包含于CI-VID_samples_for_visualization/目录

📊 评估体系

1. 人工评估

对比模型:
- 基线模型（Emu3训练）
- CI-VID微调模型
评估维度:
- 一致性
- 叙事性
- 事实正确性
流程: 3名专业标注员通过并排匿名比较
可视化示例: https://flagchat.ks3-cn-beijing.ksyuncs.com/TVinterleve/visual_contrast.zip

2. VLM评估

评估模型: Qwen2-VL-72B-Instruct
评估维度:
- 风格一致性
- 实体一致性
- 背景一致性
- 视角过渡连贯性
- 文本提示对齐
- 视觉合理性
评分标准: 0-5分制（极差到极优）

3. 相似性评估

评估层级:
- 全局相似性（完整序列）
- 对象级相似性
数据准备:
- 中间帧: https://flagchat.ks3-cn-beijing.ksyuncs.com/TVinterleve/middle_frames_for_sim_eval.zip
- 对象边界框: https://flagchat.ks3-cn-beijing.ksyuncs.com/TVinterleve/rectangles.zip

📜 引用信息

bibtex @misc{ju2025cividcoherentinterleavedtextvideo, title={CI-VID: A Coherent Interleaved Text-Video Dataset}, author={Yiming Ju and Jijin Hu and Zhengxiong Luo and Haoge Deng and hanyu Zhao and Li Du and Chengwei Wu and Donglin Hao and Xinlong Wang and Tengfei Pan}, year={2025}, eprint={2507.01938}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.01938}, }

搜集汇总

数据集介绍

构建方式

CI-VID数据集的构建过程分为三个主要阶段：源视频收集、视频剪辑序列构建和字幕生成。首先，从4000多个精选的YouTube频道收集原始视频，经过严格的质量筛选，确保分辨率和视觉清晰度。随后，利用内容感知检测技术将视频分割为独立镜头剪辑，并通过光学流和文本检测进一步过滤。在构建视频剪辑序列时，采用基于相似性和实体的双重分割策略，确保序列内剪辑既保持内容相关性又具有视觉多样性。最后，利用GPT-4o生成结构化字幕，包括单个剪辑的详细描述和相邻剪辑间的关联信息，形成完整的文本-视频交错序列。

特点

CI-VID数据集的核心特点在于其连贯的文本-视频交错结构和高质量的多维度标注。数据集包含超过34万个样本，每个样本由平均3.1个视频剪辑组成，并配备细粒度的个体字幕和联合字幕，描述剪辑间的连续性变化。视频内容源自多样化的主题频道，经过严格筛选后保留不足20%的高质量素材，确保1080p及以上分辨率。独特的实体验证机制和双重分割策略，使得序列内剪辑在保持风格、实体一致性的同时，支持镜头转换、动作变化等叙事要素，为多场景视频生成提供丰富的控制维度。

使用方法

使用CI-VID时，需按照交错序列结构组织输入数据：将个体字幕、视频剪辑和联合字幕按顺序排列为[caption_indiv#1, clip#1, caption_indiv#2, caption_joint#1, clip#2...]的形式。训练过程中，模型通过扩散损失在视觉标记上进行监督学习，利用前序视觉上下文和文本指令指导后续剪辑生成。评估阶段可采用多维基准测试，包括人工评价（一致性、叙事性、事实准确性）、基于视觉语言模型的自动评分（风格一致性、实体连贯性等）以及相似度度量（CLIP、1-LPIPS、SSIM）。该数据集特别适用于文本视频到视频（T&V2V）生成任务，能够有效提升模型在跨场景连续性、视角转换和语义控制方面的表现。

背景与挑战

背景概述

CI-VID数据集由北京人工智能研究院和北京邮电大学的研究团队于2025年提出，旨在解决现有文本-视频（T-V）数据集中孤立视频片段缺乏连贯性的问题。该数据集包含超过34万个样本，每个样本由一系列连贯的视频片段及其对应的文本描述组成，不仅描述单个片段内容，还捕捉片段间的过渡关系。CI-VID的提出推动了文本-视频生成领域从单一场景生成向多场景连贯生成的转变，为故事驱动的内容创作提供了重要支持。

当前挑战

CI-VID数据集面临的挑战主要包括两个方面：领域问题挑战和构建过程挑战。在领域问题方面，现有T-V数据集仅支持单一场景生成，难以实现跨场景的人物、风格和背景一致性，而CI-VID通过引入片段间关系描述解决了这一难题。在构建过程中，研究团队需要确保视频片段既保持内容相关性又具备视觉多样性，同时生成高质量的个体和联合文本描述。此外，数据集的构建还涉及从海量视频中筛选高质量内容、处理片段间的时间连续性以及验证实体一致性等复杂问题。

常用场景

经典使用场景

在计算机视觉领域，CI-VID数据集为文本到视频（T2V）和文本与视频到视频（T&V2V）生成任务提供了高质量的基准。其独特的连贯多场景视频序列设计，使得模型能够生成具有一致性和叙事性的视频内容。这一特性在故事驱动的内容创作、视频编辑和跨场景视频生成等任务中尤为关键。

衍生相关工作

CI-VID数据集的推出催生了一系列相关研究，特别是在连贯视频生成和跨场景视频编辑领域。基于该数据集的研究工作包括改进的T&V2V生成模型、多模态评估基准以及视频叙事性增强技术。这些工作进一步推动了视频生成技术的发展，并为后续研究提供了重要参考。

数据集最近研究