VSR-120K

Name: VSR-120K
Creator: 清华大学, 上海人工智能实验室, 香港中文大学, 上海交通大学
Published: 2025-10-15 01:25:54
License: 暂无描述

arXiv2025-10-15 更新2025-10-16 收录

下载链接：

https://zhuang2002.github.io/FlashVSR/

下载链接

链接失效反馈

官方服务：

资源简介：

VSR-120K数据集是一个大规模的高质量图像和视频数据集，包含12万个视频（平均长度超过350帧）和18万个高质量图像。该数据集用于联合图像和视频的超分辨率训练，旨在提高视频超分辨率技术的性能和通用性。数据集的创建过程中，采用了自动化质量控制，以确保数据集的质量。VSR-120K数据集的应用领域是视频超分辨率技术，旨在解决高分辨率、高质量和实时流式视频超分辨率的问题。

The VSR-120K dataset is a large-scale, high-quality image and video dataset, comprising 120,000 videos (with an average length of over 350 frames) and 180,000 high-quality images. This dataset is utilized for joint image and video super-resolution training, with the objective of enhancing the performance and generalizability of video super-resolution technologies. Automated quality control was implemented during the dataset's development to ensure its overall quality. The VSR-120K dataset is tailored for applications in video super-resolution, aiming to resolve challenges associated with high-resolution, high-quality, and real-time streaming video super-resolution.

提供机构：

清华大学, 上海人工智能实验室, 香港中文大学, 上海交通大学

创建时间：

2025-10-15

原始信息汇总

FlashVSR 数据集概述

基本信息

数据集名称: VSR-120K
发布状态: 整理中，待发布
数据规模: 约12万视频片段和18万张高分辨率图像

数据内容

视频数量: 约120,000个视频片段
图像数量: 约180,000张高分辨率图像
视频特征: 平均超过350帧
分辨率要求: 所有视频分辨率均高于1080p

数据质量保证

视觉质量筛选: 使用LAION-Aesthetic和MUSIQ预测器进行视觉质量评估
运动检测: 应用RAFT算法移除运动不足的片段
动态要求: 仅保留具有足够时间动态的视频
多阶段过滤: 经过多阶段筛选获得干净、多样的语料库

用途

适用于大规模联合图像-视频超分辨率训练
支持高质量视频超分辨率训练

搜集汇总

数据集介绍

构建方式

在视频超分辨率领域，数据集的规模与质量直接影响模型的泛化能力。VSR-120K通过系统化数据采集与质量控制流程构建，从Videvo、Pexels和Pixabay等开放平台收集60万视频片段与22万高清图像，采用LAION美学预测器与MUSIQ进行视觉质量评估，结合RAFT光流算法筛选运动强度充足的片段，最终形成包含12万视频（平均时长>350帧）与18万高清图像的联合训练集，为图像-视频联合超分辨率训练提供坚实基础。

使用方法

在具体应用层面，VSR-120K支持端到端的视频超分辨率训练流程。研究者可将数据集划分为训练集与验证集，采用RealBasicVSR退化管道生成配对的低分辨率-高分辨率样本。训练时既可单独使用视频数据学习时序一致性，也可结合图像数据增强空间细节重建能力。数据加载器应确保批次内视频与图像的均衡采样，通过随机裁剪与时序增强策略提升模型鲁棒性，最终实现高质量视频重建与高效推理的协同优化。

背景与挑战

背景概述

视频超分辨率技术作为计算机视觉领域的重要研究方向，在智能手机摄影、社交媒体和直播等场景中具有广泛应用。VSR-120K数据集由上海人工智能实验室、清华大学和香港中文大学等机构于2025年联合构建，旨在解决现有视频超分辨率数据集规模有限、质量参差不齐的瓶颈。该数据集包含12万段高质量视频和18万张高清图像，通过自动化质量控制流程筛选，平均视频长度超过350帧，为联合图像-视频训练提供了大规模基础。该数据集的发布显著提升了视频超分辨率模型的训练效果，推动了扩散模型在实时视频增强领域的实用化进程。

当前挑战

在视频超分辨率领域，扩散模型面临高延迟、计算复杂度与超高分辨率泛化能力不足三大核心挑战。具体而言，传统分块处理机制导致帧间冗余计算与高前瞻延迟，密集三维注意力机制产生二次复杂度计算开销，而训练-测试分辨率差异则引发位置编码失配问题。在数据集构建过程中，需克服海量视频数据的质量筛选难题，通过光学流运动分析与多尺度质量评估确保时空一致性，同时解决压缩伪影与原始分辨率保持的技术瓶颈。

常用场景

经典使用场景

在视频超分辨率研究领域，VSR-120K数据集作为大规模训练资源，主要应用于扩散模型在视频增强任务中的训练与验证。该数据集包含12万段高质量视频和18万张图像，为模型提供了丰富的时空信息，使得研究人员能够系统评估算法在真实场景下的重建能力。其典型应用场景包括智能手机摄影、社交媒体平台和实时直播中的视频质量提升，通过联合图像-视频训练策略，有效支撑了端到端的超分辨率模型开发。

解决学术问题

该数据集显著缓解了视频超分辨率领域面临的数据稀缺与质量不足问题。传统方法受限于小规模数据集，难以捕捉真实场景的复杂退化模式，而VSR-120K通过自动化质量控制流程，提供了覆盖多种分辨率与运动模式的大规模样本。这不仅解决了模型在超高分辨率视频上泛化能力不足的学术难题，还为探索扩散模型在实时视频处理中的效率与质量平衡提供了实验基础，推动了视频恢复任务从合成数据向真实场景的范式转变。

实际应用

在实际部署中，基于VSR-120K训练的模型已展现出在移动端视频处理与在线流媒体服务的应用潜力。其支持的实时超分辨率技术可集成至智能手机相机系统，提升低光照或压缩视频的视觉质量；在直播平台中，能够动态增强传输码流的分辨率，减少带宽消耗同时保持画面细节。此外，该技术还可应用于历史影像修复、安防监控增强等垂直领域，为工业界提供了可扩展的高效视频增强解决方案。

数据集最近研究