SloMo-44K
收藏arXiv2026-04-24 更新2026-04-25 收录
下载链接:
https://seeing-fast-and-slow.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
SloMo-44K是由康奈尔大学等机构构建的迄今最大规模慢动作视频数据集,包含44,632个视频片段和1800万帧画面,最高原始帧率达10,000+ FPS。该数据集通过自监督模型从网络视频中自动标注整理而成,涵盖多样化活动类型和运动模式,其高帧率特性保留了精细的时间动态细节。数据集构建过程创新性地利用音频-视觉跨模态线索和时序重采样等自监督技术,解决了传统人工标注效率低下的问题。该数据集为视频时间流感知与操控研究提供了基础资源,可应用于速度条件视频生成、时序超分辨率等任务,推动模型对真实世界动态演变过程的理解。
SloMo-44K is the largest-scale slow-motion video dataset to date, constructed by Cornell University and other institutions. It contains 44,632 video clips and 18 million frames, with a maximum original frame rate exceeding 10,000 FPS. This dataset is automatically annotated and organized from web videos via self-supervised models, covering diverse activity types and motion patterns. Its high frame rate feature preserves fine-grained temporal dynamic details. The dataset construction innovatively leverages cross-modal audio-visual cues and self-supervised technologies such as temporal resampling, solving the problem of low efficiency in traditional manual annotation. It provides fundamental resources for research on video temporal stream perception and manipulation, and can be applied to tasks including speed-conditioned video generation, temporal super-resolution, etc., promoting models' understanding of dynamic evolution processes in the real world.
提供机构:
康奈尔大学; 台湾大学; 华盛顿大学
创建时间:
2026-04-24
原始信息汇总
好的,这是该数据集详情页面的关键信息总结。
数据集概述
基本信息
- 数据集名称: SloMo-44K
- 项目名称: Seeing Fast and Slow: Learning the Flow of Time in Videos
- 发布机构: Cornell University, National Taiwan University, University of Washington
数据集规模与构成
- 视频总数: 44,632 个
- 总时长: 约 167 小时
- 总帧数: 1800 万帧
- 视频来源: YouTube, Vimeo, Flickr
- 内容特点: 涵盖使用高速摄像机录制的各种真实世界场景和运动模式,是目前最大规模的通用慢动作视频数据集。
- 单个视频时长: 从 5 秒到几分钟不等。
核心研究任务
该数据集与论文项目紧密相关,旨在探索视频中时间流动的感知与控制,具体包括四个互补任务:
- 速度变化检测: 定位视频播放速度发生改变的确切时刻。
- 视频速度估计: 推断视频被加速或减速的程度。
- 极端时间超分辨率: 将低帧率、模糊的视频转换为高帧率、清晰的视频。
- 速度条件视频生成: 根据用户指定的速度生成同一事件的视频。
数据集应用
该数据集(SloMo-44K)通过从海量互联网慢动作视频中自动标注速度信息而构建,并支撑了以下下游任务:
- 速度条件视频生成: 训练模型根据速度条件控制生成视频的播放速率。
- 视频到慢动作生成: 将低帧率、带有运动模糊的视频转换为清晰的高帧率慢动作视频。
- 传统时间超分辨率: 提升模型在8倍时间超分辨率任务上的性能,生成更平滑自然的运动动态。
搜集汇总
数据集介绍

构建方式
SloMo-44K的构建始于从YouTube、Vimeo和Flickr等平台,利用‘高速摄影’、‘慢动作’等关键词检索原始视频素材。在采集到海量在野视频后,研究团队首先采用TransNetv2进行镜头分割,并通过OCR模型剔除文字叠加大量的片段。为进一步净化数据,借助Qwen2.5-VL滤除计算机生成图像和屏幕录制内容,并利用视频质量评估工具筛除低质样本。随后,运用自研的变速检测器将视频切分为播放速率均匀的子片段,并借助速度估计器为每个片段标注其播放速度。最终,通过InternVL3为各片段生成密集描述,从而汇聚成包含44,632个慢动作视频片段、总计1800万帧的庞大数据库。
特点
SloMo-44K作为迄今规模最大的通用型慢动作视频数据集,其核心特点在于高帧率与极致的时序细腻度。数据集中原始素材最高帧率可达10,000帧每秒以上,远超常规数据集(如Adobe240fps或SportsSloMo),因而能够捕捉到诸如流体飞溅、物体碎裂、高速振动等细微的物理动态。此外,数据集的场景与动作模式极为丰富,覆盖从日常生活到极限运动等多样的真实世界环境。在播放速度上,整体分布跨越从极致缓慢(0.01×)至正常速度(1.0×)的广阔区间,这为机器学习模型理解并操控时间流逝的连续变化提供了前所未有的支持。
使用方法
SloMo-44K的设计旨在推动时间感知与操控两类核心任务。在时间感知方面,它可被用作训练数据,构建能够检测视频中加速度变化、估计绝对播放速度的模型,从而应用于视频取证分析。在时间操控方面,研究者可以借此数据集微调预训练的视频生成基础模型(如Wan2.1),实现按指定速率生成慢动作视频的‘速度条件化视频生成’任务,以及将低帧率、模糊影像转化为高帧率、清晰序列的‘极端时间超分辨率’任务。使用时,通常需要对目标播放速度进行对数离散化桶编码,并将其融入模型的去噪时间步或潜在特征中,以实现精确的时序控制。
背景与挑战
背景概述
SloMo-44K诞生于康奈尔大学与华盛顿大学、台湾大学等机构的深度合作,由Yen-Siang Wu等人于2026年提出。该数据集旨在填补视频理解领域对时间流逝感知与操控能力的空白。尽管视频分析已取得长足进步,现有模型仍难以像人类一样直觉地判断播放速度是否正常,更遑论生成符合指定节奏的动态内容。SloMo-44K包含超过44,000个高帧率慢动作片段,总帧数高达1800万,涵盖自然、体育、日常等丰富场景,成为迄今规模最大的通用慢动作视频资源。它为时间感知、速度估计与基于速度条件的视频生成等前沿研究奠定了坚实的数据基础,有望推动视频取证、时域超分辨率及可控视频生成等领域的突破。
当前挑战
当前,视频模型普遍面临时间推理匮乏的困境。主流数据集多采用标准帧率(24–60 fps),模型从未接触过时间速度的连续谱,导致其无法准确感知播放速度的变化或生成符合特定节奏的视频。与此同时,网络上虽有大量慢动作视频,但帧率、时间戳与回放速度等元数据往往缺失或不完整,人工标注又极端耗时且精度有限。构建SloMo-44K的过程同样充满挑战:需从海量野生视频中自动检测速度变化事件、估计绝对回放速度,再进一步筛选出真正的慢动作片段,并剔除CGI、屏幕录制等干扰内容。此外,模型在超低速场景下的速度估计易出现低估,生成任务中还需克服运动模糊与复杂物理动态的建模难题。
常用场景
经典使用场景
SloMo-44K数据集的核心经典用途在于训练和评估视频播放速度感知与操控模型。该数据集包含了4.4万余个来自真实世界、涵盖广泛场景与运动模式的慢动作视频片段,总帧数超过1800万,帧率最高可达10000 FPS以上。研究者可利用此数据集进行速度变化检测、播放速度估计、速度条件视频生成以及极端时间超分辨率等任务。其丰富的时间尺度多样性使模型能够学习到从极慢到正常速度的连续时间流,进而实现对视频中时间流动的精确感知与调控,是当前规模最大、场景最通用的慢动作视频研究基准。
解决学术问题
该数据集解决了视频理解与生成领域中长期存在的缺乏时间速度感知能力的学术难题。传统模型因训练数据局限于标准帧率(24-60 FPS),无法理解或操控视频的播放速度。SloMo-44K通过提供跨越广泛时间尺度的真实慢动作视频,使研究者得以开发出能够准确检测速度变化、估计播放速度的模型,极大缩小了机器与人类感知之间的差距。此外,该数据集还推动了速度条件视频生成与时间超分辨率等新任务的建立,为探究时间作为可学习视觉概念提供了关键数据支撑,促进了时间取证和更丰富世界模型的发展。
衍生相关工作
基于SloMo-44K数据集,衍生了一系列创新研究工作。在速度感知方面,研究者提出了基于自监督学习的速度变化检测器和播放速度估计器,利用音频-视觉模态的耦合和时间重采样的等变性进行训练。在视频生成方面,衍生出了速度条件视频生成模型,通过在扩散模型中嵌入速度编码实现精细的时间控制;以及极端时间超分辨率模型,能够将模糊的低帧率视频转化为清晰的高帧率序列。这些工作共同将时间确立为视频学习中一个可操控的感知维度,并为后续的时间可控生成与时间取证研究奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



