Step-Video-TI2V-Eval
收藏arXiv2025-03-14 更新2025-03-18 收录
下载链接:
https://github.com/stepfun-ai/Step-Video-TI2V
下载链接
链接失效反馈官方服务:
资源简介:
Step-Video-TI2V-Eval是一个针对文本驱动的图像到视频生成任务的新基准数据集,由StepFun创建。该数据集包含178个现实世界和120个动画风格的提示-图像对,旨在覆盖多样化的用户场景。数据集根据类别特定的属性进行精细分类,包括动态艺术元素、运动学元素等,以实现全面的表征。该数据集支持对生成的视频在指令遵循、主体和背景一致性以及物理定律遵守等方面的评估,为相关研究提供了基础。
Step-Video-TI2V-Eval is a novel benchmark dataset for text-driven image-to-video generation tasks, created by StepFun. This dataset comprises 178 real-world and 120 animation-style prompt-image pairs, intended to cover diverse user application scenarios. It is finely classified based on category-specific attributes including dynamic artistic elements, kinematic elements, and others, to enable comprehensive characterization of the generation task. This dataset supports the evaluation of generated videos across multiple dimensions such as instruction following, subject and background consistency, and compliance with physical laws, serving as a foundational resource for relevant research.
提供机构:
StepFun
创建时间:
2025-03-14
搜集汇总
数据集介绍

构建方式
Step-Video-TI2V-Eval数据集的构建基于文本驱动的图像到视频生成任务,旨在为TI2V模型提供全面的评估基准。该数据集包含178个真实世界场景和120个动漫风格场景的提示-图像对,涵盖了广泛的用户场景。数据收集过程中,采用了细粒度的分类方法,确保每个类别具有代表性。真实世界场景进一步细分为动态和艺术元素,如超现实图像和音乐表演;动漫风格场景则根据动漫风格和色彩美学进行分类。为确保高质量,每个图像的提示均由人工标注,详细描述了生成视频中预期的对象运动和相机移动。
特点
Step-Video-TI2V-Eval数据集的特点在于其多样性和细粒度的分类结构。数据集不仅涵盖了真实世界和动漫风格的广泛场景,还通过动态元素、艺术表现、色彩美学等维度进一步细分,确保了数据的丰富性和代表性。此外,数据集中每个提示-图像对都经过精心设计,能够有效评估模型在生成视频时的指令遵循、主体与背景一致性以及物理规律遵循等方面的表现。这种多维度的设计使得该数据集成为评估TI2V模型性能的理想选择。
使用方法
Step-Video-TI2V-Eval数据集主要用于评估文本驱动的图像到视频生成模型的性能。用户可以通过该数据集测试模型在生成视频时的指令遵循、主体与背景一致性以及物理规律遵循等方面的表现。具体使用时,用户需将模型生成的视频与数据集中的提示-图像对进行对比,评估其在三个维度上的表现:指令遵循、主体与背景一致性以及物理规律遵循。通过这种方式,用户能够全面了解模型在不同场景下的生成能力,并为模型的优化提供数据支持。
背景与挑战
背景概述
Step-Video-TI2V-Eval数据集由StepFun团队于2025年推出,旨在为文本驱动的图像到视频生成(TI2V)任务提供一个全新的基准。该数据集包含178个真实世界场景和120个动漫风格场景的提示-图像对,涵盖了多样化的用户场景。Step-Video-TI2V-Eval的创建基于Step-Video-TI2V模型,该模型是一个拥有300亿参数的开源TI2V模型,能够根据文本和图像输入生成最多102帧的视频。该数据集的推出不仅为TI2V任务提供了评估标准,还推动了视频生成领域的研究进展,尤其是在动漫风格视频生成方面表现出色。
当前挑战
Step-Video-TI2V-Eval数据集在构建和应用过程中面临多重挑战。首先,文本驱动的图像到视频生成任务本身具有复杂性,要求模型能够准确理解文本指令并生成符合物理规律和视觉一致性的视频。其次,数据集的构建需要涵盖多样化的场景和风格,确保其广泛适用性,这对数据收集和标注提出了高要求。此外,模型在生成视频时需平衡运动动态性和稳定性,避免生成视频中出现过多的伪影或过低的动态性。最后,数据集的评估标准设计也面临挑战,需确保评估维度(如指令遵循、主体与背景一致性、物理规律遵循)能够全面反映模型的性能。
常用场景
经典使用场景
Step-Video-TI2V-Eval数据集在文本驱动的图像到视频生成任务中具有广泛的应用。该数据集通过提供178个真实世界和120个动漫风格的提示-图像对,涵盖了多样化的用户场景。其经典使用场景包括评估不同TI2V模型在生成视频时的指令遵循、主体与背景一致性以及物理规律遵循等方面的表现。通过这一数据集,研究人员能够系统地比较和优化模型性能,推动图像到视频生成技术的发展。
解决学术问题
Step-Video-TI2V-Eval数据集解决了文本驱动图像到视频生成领域中的多个关键学术问题。首先,它提供了一个标准化的评估基准,使得不同模型之间的性能对比更加客观和科学。其次,数据集通过精细的分类和标注,帮助研究人员深入理解模型在生成视频时的动态控制、风格一致性和物理规律遵循等方面的表现。这些问题的高效解决,为图像到视频生成技术的进一步研究奠定了坚实基础。
衍生相关工作
Step-Video-TI2V-Eval数据集的发布催生了一系列相关研究和技术突破。例如,基于该数据集的研究工作进一步优化了图像到视频生成模型的动态控制能力,提出了新的运动嵌入机制和条件生成框架。此外,数据集的精细分类和标注方法也被其他领域的研究借鉴,推动了多模态生成任务的标准化评估。这些衍生工作不仅丰富了图像到视频生成的研究内容,也为相关技术的实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成



