KwaiSR Dataset

Name: KwaiSR Dataset
Creator: 中国科学院大学
Published: 2025-04-21 18:04:26
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

https://lixinustc.github.io/NTIRE2025-KVQE-KwaSR-KVQ.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

KwaiSR数据集是中国科学院大学和快手技术公司合作创建的第一个针对野外短格式UGC图像超分辨率任务的基准数据集。该数据集包含合成和野外两部分，合成部分由模拟真实世界低质量短格式UGC图像退化的分布产生，共有1900对图像；野外部分则是直接从快手平台收集的低质量图像，经过质量评估方法KVQ筛选得到1900张图像。数据集分为训练、验证和测试集，比例为8:1:1。KwaiSR数据集用于NTIRE 2025挑战赛，旨在通过扩散型/生成型方法提高低质量短格式UGC图像的主观质量。

The KwaiSR dataset is the first benchmark dataset for wild short-form UGC (User-Generated Content) image super-resolution tasks, collaboratively developed by the University of Chinese Academy of Sciences (UCAS) and Kuaishou Technology. This dataset comprises two subsets: the synthetic subset and the wild subset. The synthetic subset is generated by simulating the degradation distribution of real-world low-quality short-form UGC images, containing a total of 1900 image pairs. The wild subset consists of low-quality images directly collected from the Kuaishou platform, with 1900 images selected via the quality assessment method KVQ. The dataset is split into training, validation and test sets at a ratio of 8:1:1. The KwaiSR dataset is utilized for the NTIRE 2025 Challenge, aiming to improve the subjective quality of low-quality short-form UGC images through diffusion-based or generative methods.

提供机构：

中国科学院大学

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

KwaiSR数据集作为首个针对短格式用户生成内容（UGC）图像超分辨率任务的基准数据集，其构建过程体现了严谨的科学方法论。数据集由快手平台提供的原始素材构成，分为合成与野生两部分：合成部分通过模拟真实世界低质量UGC图像的退化分布生成1,800组配对的低分辨率（480×270）与高分辨率（1920×1080）图像；野生部分则直接采用平台内置的KVQ质量评估方法筛选出1,900张真实场景低质量图像。为确保语义多样性，图像覆盖11个类别（如山水、夜景、人物等），并通过8:1:1的比例划分训练集、验证集和测试集。这种双轨制构建策略既保留了可控的退化模拟，又囊括了真实场景的复杂性。

特点

该数据集的核心价值在于其独特的双重属性与真实场景适配性。合成部分通过精确建模UGC图像退化规律，为算法训练提供可靠的参考真值；野生部分则完整保留了移动端拍摄的噪声、压缩伪影等真实退化特征。值得注意的是，数据集涵盖的语义类别分布均衡，且退化程度经过严格校准，避免了特定场景的偏差。实验分析表明，现有超分辨率方法在该数据集上普遍面临真实感与感知质量的平衡难题，其性能显著低于传统数据集表现，印证了该基准对算法实战能力的严苛要求。

使用方法

研究者可通过官方渠道获取分轨数据：合成部分适用于监督式超分辨率模型的训练与客观指标验证（PSNR/SSIM/LPIPS）；野生部分则支持无参考质量评估（MUSIQ/CLIPIQA）和真实场景算法测试。针对4倍超分任务，建议优先使用合成数据进行模型预训练，再通过野生数据微调以适应真实退化。数据集配套的NTIRE 2025竞赛结果表明，基于扩散模型的方法在该任务中展现优势，但需注意单步采样模型可能存在的细节损失问题。为保障评估可靠性，官方推荐同时采用六种量化指标与人工评分进行综合验证。

背景与挑战

背景概述

KwaiSR数据集是首个针对短用户生成内容（UGC）图像超分辨率任务构建的基准数据集，由快手科技与中国科学技术大学等机构于2025年联合推出。该数据集旨在解决短UGC平台中因非专业用户拍摄导致的图像质量退化问题，包含1800对模拟真实退化分布的合成图像和1900张直接从快手平台采集的真实低质量图像，覆盖11种语义类别。作为NTIRE 2025挑战赛的核心数据，KwaiSR推动了生成式超分辨率算法在真实场景中的应用，其多模态特性与复杂退化模式为图像复原领域设立了新标准。

当前挑战

KwaiSR数据集面临三重核心挑战：在领域问题层面，短UGC图像存在动态模糊、传感器噪声与压缩伪影的复合退化，现有超分辨率方法在真实感与感知质量平衡方面表现欠佳；构建过程中需克服真实退化模拟的保真度难题，通过快手KVQ质量评估系统筛选野生图像时，需保持语义多样性同时控制退化程度均衡；评估体系方面，传统指标（PSNR/SSIM）与人类视觉感知存在偏差，NTIRE 2025参赛结果表明扩散模型易产生面部畸变或虚假纹理，凸显需要开发更精准的质量评估方法。

常用场景

经典使用场景

KwaiSR数据集作为首个针对短格式用户生成内容(UGC)图像超分辨率任务的基准数据集，在计算机视觉领域具有重要价值。该数据集最经典的使用场景是用于开发和评估针对短格式UGC平台的图像超分辨率算法。研究人员可以利用其1800对合成图像和1900张真实低质量图像，通过8:1:1的训练-验证-测试划分，系统地研究不同算法在真实世界UGC图像上的表现。

实际应用

在实际应用层面，KwaiSR数据集直接服务于短视频平台的图像质量提升需求。基于该数据集开发的算法可应用于快手、抖音等平台的图像增强系统，改善用户上传内容的视觉质量。特别是在处理夜间场景、舞台表演等低光照条件下的图像时，该数据集提供的多样化样本能够显著提升算法在真实场景中的鲁棒性。

衍生相关工作

KwaiSR数据集已衍生出多项重要研究工作，包括NTIRE 2025挑战赛中的参赛算法。基于该数据集，研究者开发了多种基于扩散模型的超分辨率方法，如StableSR、DiffIR等。这些工作探索了生成先验在UGC图像恢复中的应用，推动了单步采样扩散模型等高效算法的发展，为真实世界图像超分辨率开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集