five

SloMo-44K

收藏
github2026-04-30 更新2026-05-02 收录
下载链接:
https://github.com/Seeing-Fast-and-Slow/Seeing-Fast-and-Slow
下载链接
链接失效反馈
官方服务:
资源简介:
SloMo-44K是迄今为止最大的通用慢动作视频数据集,包含44,632个慢动作剪辑,来源包括YouTube、Vimeo和Flickr,涵盖了各种场景和运动,由高速摄像机录制。

SloMo-44K is the largest general-purpose slow-motion video dataset to date, containing 44,632 slow-motion clips sourced from YouTube, Vimeo, and Flickr. It covers a wide range of scenes and motion types, with all footage recorded using high-speed cameras.
创建时间:
2026-04-18
原始信息汇总

数据集概述

  • 数据集名称:SloMo-44K
  • 所属项目:Seeing Fast and Slow: Learning the Flow of Time in Videos
  • 数据集规模:包含 44,632 个慢动作视频片段
  • 数据来源:从 YouTube、Vimeo 和 Flickr 三个视频平台采集
  • 覆盖范围:涵盖多种场景和运动类型,均使用高速摄像机录制,是当前最大的通用慢动作视频数据集

相关任务

该数据集旨在支持以下四项互补的视频时间流感知与操控任务:

  1. 速度变化检测:定位视频中播放速度发生变化的精确时刻。
  2. 视频速度估计:推断视频被加速或减速的程度。
  3. 极端时间超分辨率:将低帧率、模糊的视频转换为高帧率、清晰的视频。
  4. 速度条件视频生成:根据用户指定的时间速度合成同一事件的不同速度版本。

论文与获取

搜集汇总
数据集介绍
main_image_url
构建方式
视频时间流感知与操控是计算机视觉领域的一个前沿课题,涉及速度变化检测、视频速度估计、极端时间超分辨率以及速度条件视频生成四项互补任务。为支撑这些研究的训练与评估,研究者构建了SloMo-44K数据集,这是目前规模最大的通用慢动作视频数据集。该数据集从YouTube、Vimeo和Flickr三个平台搜集了44,632段慢动作视频片段,这些视频均使用高速摄像机拍摄,覆盖了丰富多样的场景与运动类型,确保了数据在内容与速度变化上的广泛代表性。
使用方法
使用SloMo-44K数据集时,用户可通过Hugging Face平台直接下载全量数据。为便于研究,项目提供了视频速度估计任务的快速启动指南:首先克隆代码仓库并进入对应子目录,然后创建Python 3.10环境并安装依赖项,接着从Hugging Face下载预训练检查点,最后运行推理脚本即可对输入视频进行速度预测,结果以JSON格式输出。其他三项任务的代码也将在后续陆续发布,届时研究者可依据类似的流程进行模型训练与评估。
背景与挑战
背景概述
视频时间感知与操控是计算机视觉领域的前沿研究方向,旨在赋予机器理解并操纵视频中时间流动的能力。SloMo-44K数据集由Yen-Siang Wu等研究人员于2026年创建,覆盖YouTube、Vimeo及Flickr等平台来源的44,632个高速慢动作视频片段,系当前规模最大的通用慢动作视频数据集。该数据集围绕四项互补任务展开:速度变化检测、视频速度估计、极端时间超分辨率以及速度条件视频生成,为探究视频中精细时间感知与可控生成提供了统一的基准平台。SloMo-44K的出现填补了慢动作视频领域大规模、多样化数据资源的空白,显著推动了时间相关视觉任务的研究进展,对视频理解、内容编辑及多媒体应用等方向具有深远影响。
当前挑战
当前该领域面临的挑战主要聚焦于时间维度的精细解析与生成。首先,视频速度估计需从单一整体速度推断转变为多段变速时刻的准确定位,而现有方法难以应对自然视频中速度突变的复杂模式。其次,极端时间超分辨率要求在低帧率、高模糊的输入下重建高帧率清晰视频,涉及运动模糊去除与时序细节填充的双重难题。此外,速度条件视频生成需保证同一事件在不同速度下的视觉连贯性,对模型的时空建模能力提出了严苛要求。在数据集构建过程中,从网络平台收集的慢动作视频存在内容多样性不足、光照与场景分布不均等问题,需经过严格的筛选与标注流程以保证质量,这进一步增加了资源整合的难度。
常用场景
经典使用场景
在视频理解领域,时间维度的精细感知长久以来便是极具挑战性的课题。SloMo-44K数据集凭借其44,632段来自高速摄影的慢动作视频素材,为四个紧密关联的任务提供了统一的训练与评测平台:速度变化检测旨在精准定位播放速率发生变化的瞬间;视频速度估计致力于推断视频被加速或减速的程度;极端时域超分辨率则聚焦于将低帧率、模糊的视频还原为高帧率、清晰的内容;而速度条件视频生成允许用户以指定速率合成同一事件的视频。这些任务共同构成了对视频时间流进行感知与操控的完整框架。
解决学术问题
该数据集的核心学术贡献在于解决了视频时间信息建模中长期存在的两个关键问题:其一,缺乏大规模、多样化且标注精细的慢动作视频数据集,以往研究多依赖合成数据或受限的采集环境,难以泛化至真实世界的复杂场景;其二,现有方法多将时域超分辨率与速度估计视为独立任务,忽视了它们内在的协同关系。SloMo-44K通过提供涵盖广泛运动类型与拍摄场景的真实慢动作视频,并配套四个互补的任务设计,使得模型能够同时学习时间流动的感知与操控能力,显著推进了视频时序理解的研究边界。
实际应用
在实际应用中,该数据集所支撑的技术具有广阔的前景。在体育赛事直播中,速度估计与极端时域超分辨率能够将普通摄像机捕捉的画面转化为慢动作回放,从而辅助裁判进行精确判罚或教练分析运动员动作细节。在安防监控领域,速度变化检测能够自动识别视频中可能存在的变速篡改,增强证据的可信度。此外,速度条件视频生成使得影视创作者能够灵活控制镜头的时间节奏,而无需重新拍摄,大幅降低制作成本。这些应用展现了该数据集从学术研究到产业落地的巨大潜力。
数据集最近研究
最新研究方向
随着视频内容在媒体传播与计算机视觉领域的指数级增长,对视频中时间流本质的感知与操控成为前沿探索方向。SloMo-44K作为目前规模最大的通用慢动作视频数据集,包含44632段来自YouTube、Vimeo和Flickr的高质量高速摄影片段,为四项互补性任务提供了数据基石:速度变化检测精准定位播放速率突变的瞬间,视频速度估计推断素材被加速或减慢的程度,极端时间超分辨率将低帧率模糊视频转换为高清高帧率版本,以及速度条件视频生成以用户指定的节奏合成同一事件。该数据集紧密关联可解释AI与可控视频生成的热点需求,推动了从被动理解到主动操控视频时间维度的范式跃迁,其跨场景与多种运动模式的覆盖为视频理解、影视后期及自动驾驶仿真等领域提供了关键支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作