DIV2K, LDV 3.0

Name: DIV2K, LDV 3.0
Creator: 计算机视觉实验室，苏黎世联邦理工学院，瑞士
Published: 2022-08-25 22:44:53
License: 暂无描述

arXiv2022-08-25 更新2024-06-21 收录

下载链接：

https://github.com/RenYang-home/LDV_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DIV2K数据集由1000张高分辨率图像组成，内容多样，用于AIM 2022挑战赛的图像超分辨率Track 1。LDV 3.0数据集是视频超分辨率Track 2的核心，包含365个视频，这些视频是从YouTube收集的，涵盖10种不同的场景类别，帧率从24fps到60fps不等。LDV 3.0数据集的创建过程包括从4K分辨率的视频中选择无明显压缩伪影的视频，并进行下采样和裁剪以满足HEVC测试模型的要求。这些数据集主要用于研究和学术目的，旨在解决压缩图像和视频的质量增强问题。

The DIV2K dataset consists of 1000 high-resolution images with diverse contents, and is used for Image Super-Resolution Track 1 of the AIM 2022 Challenge. The LDV 3.0 dataset, serving as the core resource for Video Super-Resolution Track 2, contains 365 videos collected from YouTube, covering 10 distinct scene categories with frame rates ranging from 24fps to 60fps. The creation process of the LDV 3.0 dataset includes selecting videos free of obvious compression artifacts from 4K-resolution videos, followed by downsampling and cropping to meet the requirements of the HEVC Test Model. These datasets are primarily utilized for research and academic purposes, aiming to address the quality enhancement of compressed images and videos.

提供机构：

计算机视觉实验室，苏黎世联邦理工学院，瑞士

创建时间：

2022-08-24

搜集汇总

数据集介绍

构建方式

在图像与视频超分辨率领域，DIV2K数据集作为高分辨率图像基准，包含1000张多样内容图像，划分为800张训练集、100张验证集和100张测试集，为压缩图像超分辨率任务提供标准数据支持。LDV 3.0数据集则针对压缩视频超分辨率构建，在LDV 2.0基础上扩展30个视频，总计365个视频，涵盖动物、城市等10类场景，帧率从24fps至60fps不等。为确保数据质量，所有视频均采集自4K分辨率源，经下采样去除伪影，并裁剪为8的倍数以适应HEVC编码要求，最终转换为YUV 4:2:0格式，遵循学术研究许可协议。

使用方法

在AIM 2022挑战赛中，DIV2K数据集用于Track 1的压缩图像超分辨率任务，参与者需基于训练集开发模型，利用验证集进行调优，并在测试集上评估性能。输入图像经JPEG质量因子10压缩后，通过双三次下采样生成低分辨率样本，要求模型实现4倍超分辨率重建。LDV 3.0数据集用于Track 2的压缩视频超分辨率任务，视频先经双三次下采样，再以HEVC在QP=37下压缩，模型需同时完成质量增强与4倍超分辨率。数据集提供标准划分，支持端到端训练与评估，并鼓励使用额外数据提升性能。

背景与挑战

背景概述

DIV2K与LDV 3.0数据集是AIM 2022挑战赛的核心组成部分，专注于压缩图像与视频的超分辨率研究。DIV2K数据集自2017年由NTIRE竞赛推出以来，已成为图像超分辨率领域的基准数据集，包含1000张高分辨率图像，涵盖丰富多样的视觉内容。LDV 3.0数据集则由苏黎世联邦理工学院与维尔茨堡大学的研究团队于2022年构建，作为LDV系列的扩展，它整合了365段高质量视频，覆盖动物、城市、运动等十类场景，旨在推动压缩视频超分辨率技术的发展。这些数据集的创建响应了互联网带宽限制下媒体传输效率的需求，其核心研究问题在于同时提升压缩媒体内容的分辨率与视觉质量，对计算机视觉与多媒体处理领域产生了深远影响。

当前挑战

DIV2K与LDV 3.0数据集所针对的领域挑战在于解决压缩图像与视频的超分辨率问题，这要求模型在提升分辨率的同时有效抑制JPEG与HEVC压缩引入的伪影，平衡细节增强与失真控制。构建过程中的挑战包括数据收集与处理的复杂性：LDV 3.0需从YouTube筛选高质4K视频，确保内容多样性并遵循知识共享许可，同时进行下采样、裁剪与格式转换以适配HEVC编码标准；DIV2K则需维持图像内容的广泛代表性以支持模型泛化。此外，数据标注与基准建立涉及严格的预处理流程，如双三次下采样与压缩模拟，这对数据一致性与评估可靠性提出了较高要求。

常用场景

经典使用场景

在图像与视频超分辨率领域，DIV2K和LDV 3.0数据集作为基准工具，广泛应用于评估和推进压缩媒体增强技术。DIV2K以其千张高分辨率图像的多样性，成为单图像超分辨率模型训练与验证的核心资源；而LDV 3.0则通过包含365段涵盖多场景、多帧率的视频序列，为视频超分辨率任务提供了丰富的时空信息。这些数据集在AIM 2022挑战赛中，分别服务于JPEG图像与HEVC视频的×4超分辨率任务，成为衡量算法性能的关键标准。

解决学术问题

DIV2K和LDV 3.0数据集有效应对了压缩媒体超分辨率中的核心学术难题。它们为联合处理压缩伪影消除与分辨率提升提供了标准化实验平台，解决了以往因数据缺乏而难以量化模型性能的困境。通过模拟真实网络传输中的带宽限制场景，这些数据集助力研究者探索盲超分辨率、时空特征融合等前沿方向，推动了端到端深度学习模型在压缩域质量增强方面的理论突破，显著提升了视觉恢复任务的精度与鲁棒性。

实际应用

在实际应用层面，基于DIV2K和LDV 3.0数据集开发的超分辨率技术已渗透至多媒体传输与消费领域。例如，在流媒体服务中，算法能够实时将低码率压缩视频重建为高清晰度画面，优化用户的观看体验；在移动通信环境下，这些技术有助于在有限带宽中保持图像细节，提升远程医疗或视频会议的视觉质量。此外，它们还为卫星影像处理、安防监控系统等专业场景提供了高效的视觉增强解决方案。

数据集最近研究