SloMo-44K

github2026-04-30 更新2026-05-02 收录

下载链接：

https://github.com/Seeing-Fast-and-Slow/Seeing-Fast-and-Slow

下载链接

链接失效反馈

官方服务：

资源简介：

SloMo-44K是迄今为止最大的通用慢动作视频数据集，包含44,632个慢动作剪辑，来源包括YouTube、Vimeo和Flickr，涵盖了各种场景和运动，由高速摄像机录制。

SloMo-44K is the largest general-purpose slow-motion video dataset to date, containing 44,632 slow-motion clips sourced from YouTube, Vimeo, and Flickr. It covers a wide range of scenes and motion types, with all footage recorded using high-speed cameras.

创建时间：

2026-04-18

原始信息汇总

数据集概述

数据集名称：SloMo-44K
所属项目：Seeing Fast and Slow: Learning the Flow of Time in Videos
数据集规模：包含 44,632 个慢动作视频片段
数据来源：从 YouTube、Vimeo 和 Flickr 三个视频平台采集
覆盖范围：涵盖多种场景和运动类型，均使用高速摄像机录制，是当前最大的通用慢动作视频数据集

论文与获取

论文：https://arxiv.org/abs/2604.21931
项目页面：https://Seeing-Fast-and-Slow.github.io
数据集下载：https://huggingface.co/datasets/james020619/SloMo-44K/tree/main

搜集汇总

数据集介绍

构建方式

视频时间流感知与操控是计算机视觉领域的一个前沿课题，涉及速度变化检测、视频速度估计、极端时间超分辨率以及速度条件视频生成四项互补任务。为支撑这些研究的训练与评估，研究者构建了SloMo-44K数据集，这是目前规模最大的通用慢动作视频数据集。该数据集从YouTube、Vimeo和Flickr三个平台搜集了44,632段慢动作视频片段，这些视频均使用高速摄像机拍摄，覆盖了丰富多样的场景与运动类型，确保了数据在内容与速度变化上的广泛代表性。

使用方法

使用SloMo-44K数据集时，用户可通过Hugging Face平台直接下载全量数据。为便于研究，项目提供了视频速度估计任务的快速启动指南：首先克隆代码仓库并进入对应子目录，然后创建Python 3.10环境并安装依赖项，接着从Hugging Face下载预训练检查点，最后运行推理脚本即可对输入视频进行速度预测，结果以JSON格式输出。其他三项任务的代码也将在后续陆续发布，届时研究者可依据类似的流程进行模型训练与评估。

背景与挑战

背景概述

视频时间感知与操控是计算机视觉领域的前沿研究方向，旨在赋予机器理解并操纵视频中时间流动的能力。SloMo-44K数据集由Yen-Siang Wu等研究人员于2026年创建，覆盖YouTube、Vimeo及Flickr等平台来源的44,632个高速慢动作视频片段，系当前规模最大的通用慢动作视频数据集。该数据集围绕四项互补任务展开：速度变化检测、视频速度估计、极端时间超分辨率以及速度条件视频生成，为探究视频中精细时间感知与可控生成提供了统一的基准平台。SloMo-44K的出现填补了慢动作视频领域大规模、多样化数据资源的空白，显著推动了时间相关视觉任务的研究进展，对视频理解、内容编辑及多媒体应用等方向具有深远影响。

当前挑战

当前该领域面临的挑战主要聚焦于时间维度的精细解析与生成。首先，视频速度估计需从单一整体速度推断转变为多段变速时刻的准确定位，而现有方法难以应对自然视频中速度突变的复杂模式。其次，极端时间超分辨率要求在低帧率、高模糊的输入下重建高帧率清晰视频，涉及运动模糊去除与时序细节填充的双重难题。此外，速度条件视频生成需保证同一事件在不同速度下的视觉连贯性，对模型的时空建模能力提出了严苛要求。在数据集构建过程中，从网络平台收集的慢动作视频存在内容多样性不足、光照与场景分布不均等问题，需经过严格的筛选与标注流程以保证质量，这进一步增加了资源整合的难度。

常用场景

经典使用场景

在视频理解领域，时间维度的精细感知长久以来便是极具挑战性的课题。SloMo-44K数据集凭借其44,632段来自高速摄影的慢动作视频素材，为四个紧密关联的任务提供了统一的训练与评测平台：速度变化检测旨在精准定位播放速率发生变化的瞬间；视频速度估计致力于推断视频被加速或减速的程度；极端时域超分辨率则聚焦于将低帧率、模糊的视频还原为高帧率、清晰的内容；而速度条件视频生成允许用户以指定速率合成同一事件的视频。这些任务共同构成了对视频时间流进行感知与操控的完整框架。

解决学术问题

该数据集的核心学术贡献在于解决了视频时间信息建模中长期存在的两个关键问题：其一，缺乏大规模、多样化且标注精细的慢动作视频数据集，以往研究多依赖合成数据或受限的采集环境，难以泛化至真实世界的复杂场景；其二，现有方法多将时域超分辨率与速度估计视为独立任务，忽视了它们内在的协同关系。SloMo-44K通过提供涵盖广泛运动类型与拍摄场景的真实慢动作视频，并配套四个互补的任务设计，使得模型能够同时学习时间流动的感知与操控能力，显著推进了视频时序理解的研究边界。

实际应用

在实际应用中，该数据集所支撑的技术具有广阔的前景。在体育赛事直播中，速度估计与极端时域超分辨率能够将普通摄像机捕捉的画面转化为慢动作回放，从而辅助裁判进行精确判罚或教练分析运动员动作细节。在安防监控领域，速度变化检测能够自动识别视频中可能存在的变速篡改，增强证据的可信度。此外，速度条件视频生成使得影视创作者能够灵活控制镜头的时间节奏，而无需重新拍摄，大幅降低制作成本。这些应用展现了该数据集从学术研究到产业落地的巨大潜力。

数据集最近研究

SloMo-44K

数据集概述

相关任务

论文与获取