CI-VID
收藏Hugging Face2025-07-22 更新2025-07-23 收录
下载链接:
https://huggingface.co/datasets/BAAI/CI-VID
下载链接
链接失效反馈官方服务:
资源简介:
CI-VID是一个大型的文本-视频交错数据集,包含超过34万个视频片段和丰富字幕的交错序列,用于推动连贯的多片段视频生成。数据集支持文本和视频到视频的生成,并提供了全面的评估套件。
提供机构:
Beijing Academy of Artificial Intelligence
创建时间:
2025-07-10
原始信息汇总
CI-VID数据集概述
📌 数据集简介
- 名称: CI-VID (Coherent Interleaved Text-Video Dataset)
- 类型: 大规模文本-视频数据集
- 设计目的: 推动连贯多片段视频生成研究
- 特点:
- 支持文本和视频到视频(TV2V)生成
- 包含超过340,000个交错排列的视频片段和丰富字幕序列
- 促进具有强时间和视觉连贯性的故事驱动生成
📊 数据集构成
- 总样本量: 342,000
- 训练集: 334,000样本
- 测试集: 8,000样本
- 数据格式:
- 视频片段与字幕交错序列
- 支持学习片段内内容和片段间过渡
📥 数据下载
- 训练样本: https://flagchat.ks3-cn-beijing.ksyuncs.com/runway_log/CI-VID_train_samples.jsonl
- 测试样本: https://flagchat.ks3-cn-beijing.ksyuncs.com/runway_log/CI-VID_test_samples.jsonl
- 视频下载: CI-VID/download_all_chunks.sh
🧐 评估方法
1. 人工评估
- 基于1,000个自动生成的提示
- 评估维度:
- 一致性
- 叙事性
- 事实正确性
- 评估流程: 3名专业标注员进行匿名对比评估
2. VLM评估
- 使用Qwen2-VL-72B-Instruct模型
- 评估维度:
- 风格一致性
- 实体一致性
- 背景一致性
- 视角过渡连贯性
- 文本提示对齐
- 视觉合理性
- 评分等级: 0-5分
3. 相似性评估
- 评估层面:
- 全局相似性(整体序列)
- 对象级相似性
- 评估流程:
- 使用YOLO进行对象检测
- 人工过滤非必要对象
- 计算生成与真实视频的相似度
⚠️ 使用许可
- 许可证: intel-research
- 限制:
- 仅限非商业研究用途
- 禁止商业使用
- 未经许可不得重新分发或重新打包
📄 引用信息
bibtex @misc{ju2025cividcoherentinterleavedtextvideo, title={CI-VID: A Coherent Interleaved Text-Video Dataset}, author={Yiming Ju and Jijin Hu and Zhengxiong Luo and Haoge Deng and hanyu Zhao and Li Du and Chengwei Wu and Donglin Hao and Xinlong Wang and Tengfei Pan}, year={2025}, eprint={2507.01938}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.01938}, }
搜集汇总
数据集介绍

构建方式
在视频生成领域,CI-VID数据集的构建突破了传统文本-视频对数据集的局限,采用交错式序列设计方法。该数据集精心收集了超过34万条视频片段与文本描述的交错序列,每个序列包含多个连贯的视频片段及其对应的丰富描述。通过严格的筛选和标注流程,确保视频片段间具有逻辑关联性,支持故事驱动的视频生成任务。数据集划分为训练集(334k样本)和测试集(8k样本),为模型开发与评估提供标准化基准。
特点
CI-VID数据集最显著的特征在于其独特的交错序列结构,能够同时捕捉视频片段内部内容与片段间的过渡关系。数据集提供多层次评估体系,包含人工评估、基于视觉语言模型的自动化评估以及相似度评估三种互补方法。每个评估维度都设计了精细的评分标准,如VLM评估涵盖风格一致性、实体一致性等六个关键指标。可视化对比样本和标准化的评估代码进一步提升了数据集的易用性和可复现性。
使用方法
研究人员可通过下载训练集和测试集的JSONL文件快速接入CI-VID数据集。使用该数据集时,建议首先利用训练集开发具有时序连贯性的视频生成模型,随后在测试集上运行提供的评估脚本进行多维度性能验证。评估流程支持人工标注对比、VLM自动评分以及对象级相似度计算等多种方式。数据集配套的边界框标注、中间帧参考等辅助资源,可深度优化模型的对象一致性和过渡平滑度表现。
背景与挑战
背景概述
CI-VID数据集由英特尔研究院于2025年推出,旨在推动连贯多片段视频生成领域的研究。该数据集突破了传统文本到视频(T2V)数据集的局限,通过提供超过34万条交织的视频片段和丰富字幕序列,支持文本与视频到视频(TV2V)的生成任务。其核心研究问题聚焦于如何实现视频片段间的内容连贯性与过渡自然性,从而促进故事驱动的视频生成。CI-VID不仅为模型训练提供了高质量数据,还引入了包含人类评估、视觉语言模型评估和相似性评估的全面评测体系,显著提升了生成视频的时序一致性与视觉连贯性标准。
当前挑战
CI-VID数据集面临的挑战主要体现在两个维度:在领域问题层面,传统视频生成模型难以捕捉复杂叙事结构中片段间的语义关联与视觉连续性,导致生成内容出现风格断层或逻辑跳跃;在构建过程中,数据集需精确标注大规模交织视频序列的时空对应关系,同时平衡创意表达与技术可行性。评测环节设计同样具有挑战性,需开发能同时衡量局部内容质量与全局叙事连贯性的多模态评估指标,并通过人工标注与自动化评估相结合的方式确保结果可靠性。
常用场景
经典使用场景
在视频生成领域,CI-VID数据集为研究者提供了丰富的多片段视频序列及其对应的文本描述,使得模型能够学习到片段内内容与片段间过渡的复杂关系。这一数据集特别适用于故事驱动的视频生成任务,通过34万条交织的视频片段和文本序列,为模型训练提供了高质量的时空一致性数据。
衍生相关工作
基于CI-VID数据集,研究者们已经开发了多种先进的视频生成模型和评估方法。例如,通过结合视觉语言模型(VLM)和相似性评估,衍生出了一系列用于评估视频连贯性和质量的新方法,进一步推动了该领域的技术进步。
数据集最近研究
最新研究方向
在视频生成领域,CI-VID数据集的推出为多片段连贯视频生成研究开辟了新路径。该数据集通过34万条交错排列的视频片段与文本描述,突破了传统文本到视频(T2V)数据集中孤立片段-字幕对的局限,支持文本与视频到视频(TV2V)的生成任务。当前研究聚焦于如何利用该数据集提升模型对片段内内容与片段间过渡的学习能力,以实现更具故事性和时序连贯性的视频生成。前沿探索集中在三个方面:基于人类评估的叙事连贯性分析、利用视觉语言模型(VLM)进行多维度自动评估,以及通过目标检测技术实现对象级别的相似性度量。这些研究不仅推动了生成视频在风格一致性、实体保持和视角过渡等方面的技术进步,更为建立标准化视频生成评估体系提供了重要基准。
以上内容由遇见数据集搜集并总结生成



