SFI-300K
收藏arXiv2025-07-08 更新2025-08-15 收录
下载链接:
http://arxiv.org/abs/2507.05173v1
下载链接
链接失效反馈官方服务:
资源简介:
SFI-300K是一个大规模的多模态数据集,包含30万个高质量的视频剪辑,涵盖多样化的内容类别和帧间隔(5-81帧)。每个样本都包括丰富的高密度字幕。该数据集是专门为语义帧插值(SFI)任务设计的,旨在提供一个全面且标准化的评估框架,以评估模型在多个维度上的性能,包括时间一致性、视觉质量和在不同生成长度下的指令遵守情况。
提供机构:
上海交通大学, 浙江大学, 腾讯优图实验室
创建时间:
2025-07-08
搜集汇总
数据集介绍

构建方式
SFI-300K数据集的构建基于公开可用的Open Sora Plan数据集,通过严格的筛选和处理流程确保数据质量。首先,过滤掉帧率低于或等于30且总帧数不在5至81之间的视频。接着,利用CLIP和RAFT方法计算首尾帧的CLIP分数和光流分数,以量化其相似性和差异性,确保视频在语义和运动上具有显著变化。随后,根据预定义的帧数集合(5、9、17、33、65、81)对视频进行多帧裁剪,最终生成包含30万视频片段的高质量数据集。每个片段均通过Qwen2.5-VL-32B模型生成高信息密度的长文本语义标注。
使用方法
SFI-300K数据集专为语义帧插值(SFI)任务设计,适用于训练和评估生成模型在给定首尾帧及文本提示条件下的中间帧生成能力。研究人员可利用该数据集训练模型实现多尺度帧插值,从短时精细运动到长时语义过渡。评估时,建议使用SFIBench提供的标准化协议,通过LPIPS、FID等指标量化生成结果的视觉保真度,并结合ViCLIP评估语义一致性。此外,数据集的多样帧数设置支持模型在插值、过渡和生成等不同场景下的性能验证。
背景与挑战
背景概述
SFI-300K数据集由上海交通大学、浙江大学和腾讯优图实验室的研究团队于2025年提出,是首个专门针对语义帧插值(Semantic Frame Interpolation, SFI)任务构建的大规模基准数据集。该数据集包含30万条高质量视频片段,覆盖5至81帧的多尺度帧间隔,并配备高密度语义标注。SFI任务突破了传统视频帧插值(VFI)的局限性,支持基于首尾帧和文本提示的任意长度中间帧生成,实现了从低层运动一致性到高层语义可控性的跨越。该数据集通过引入混合LoRA架构和动态帧适应机制,为视频编辑、动画制作等专业领域提供了语义级内容控制的新范式,显著扩展了帧插值技术的应用边界。
当前挑战
SFI-300K面临的核心挑战体现在两个维度:在任务层面,传统VFI方法受限于局部运动先验和短时序建模,难以处理大时空位移与文本语义控制的协同优化;而基于基础视频模型(FVM)的方法虽擅长长序列生成,却对短帧插值的细粒度一致性缺乏适应性。在构建层面,数据需平衡跨帧差异的多样性:首尾帧的CLIP相似度与光流强度需满足阈值约束以确保有效语义变化,同时多尺度裁剪(5-81帧)要求视频原始时长与帧率的严格对齐。此外,高密度语义标注需克服跨模态对齐难题,Qwen-VL模型生成的文本描述需与视觉内容保持时空一致性。
常用场景
经典使用场景
SFI-300K数据集在视频帧插值领域具有广泛的应用价值,尤其在语义帧插值任务中表现突出。该数据集通过提供高质量的视频片段和丰富的文本标注,支持生成具有语义一致性的中间帧序列。其经典使用场景包括视频编辑中的平滑过渡、动画制作中的动态效果增强以及增强现实中的场景融合。SFI-300K的多帧尺度设计使其能够适应从短时插值到长时生成的多样化需求,为研究者和开发者提供了强大的数据支持。
解决学术问题
SFI-300K数据集解决了传统视频帧插值任务中的两大核心问题:短时插值的局限性以及缺乏语义控制能力。通过引入语义帧插值(SFI)任务,该数据集支持在输入帧差异较大的情况下生成任意长度的中间帧序列,并通过文本提示实现精确的语义控制。此外,SFI-300K还填补了大规模、高质量视频数据集的空白,为多尺度帧插值研究提供了标准化评估基准,推动了视频生成技术的进一步发展。
实际应用
在实际应用中,SFI-300K数据集为视频编辑、动画制作和增强现实等领域提供了强大的技术支持。例如,在影视后期制作中,该数据集可用于生成复杂的场景过渡效果;在游戏开发中,可用于创建流畅的角色动作;在教育领域,可用于制作动态教学素材。其语义控制功能还使得用户能够通过文本提示灵活调整生成内容,极大地扩展了视频生成技术的实用性和创造性。
数据集最近研究
最新研究方向
在计算机视觉领域,视频帧插值技术正经历从传统运动补偿向语义感知生成的范式转变。SFI-300K数据集的提出标志着该领域首次建立了支持多尺度语义插值的基准测试体系,其核心创新在于将文本引导控制与动态帧率生成相结合。当前研究热点集中在基于扩散模型的混合架构设计,特别是通过Mixture-of-LoRA机制实现短时精确插值与长时语义连贯的平衡,这一技术路径在专业视频制作、增强现实等场景展现出突破性应用潜力。该数据集通过引入CLIP和RAFT双模态评估指标,为衡量生成内容的语义一致性与运动流畅度建立了新的标准,推动了视频生成模型从单纯时序预测向可控内容创作的演进。
相关研究论文
- 1Semantic Frame Interpolation上海交通大学, 浙江大学, 腾讯优图实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



