HQ-50K
收藏arXiv2023-06-09 更新2024-06-21 收录
下载链接:
https://github.com/littleYaang/HQ-50K
下载链接
链接失效反馈官方服务:
资源简介:
HQ-50K是由中国科学技术大学创建的大型高质量图像修复数据集,包含50,000张具有丰富纹理细节和语义多样性的高质量图像。该数据集考虑了数据规模、分辨率、压缩率、纹理细节和语义覆盖五个方面,旨在解决现有图像修复数据集在某些方面的不足。HQ-50K适用于多种图像修复任务,如超分辨率、降噪、去JPEG压缩伪影和去雨,通过广泛的实验证明,该数据集能显著提升各种图像修复任务的性能。
HQ-50K is a large-scale high-quality image restoration dataset developed by the University of Science and Technology of China (USTC). It contains 50,000 high-quality images with rich texture details and semantic diversity. This dataset takes into account five core dimensions: data scale, resolution, compression ratio, texture details and semantic coverage, aiming to address the shortcomings of existing image restoration datasets in certain aspects. HQ-50K is applicable to a variety of image restoration tasks, such as super-resolution, denoising, JPEG compression artifact removal and rain removal. Extensive experiments have demonstrated that this dataset can significantly improve the performance of various image restoration tasks.
提供机构:
中国科学技术大学
创建时间:
2023-06-09
搜集汇总
数据集介绍

构建方式
HQ-50K数据集的构建充分考虑了数据规模、图像分辨率、压缩率、纹理细节和语义覆盖这五个方面。首先,从互联网和现有的大型数据集中收集了大量图像,并使用预训练的CLIP模型对图像进行分类,以确保语义覆盖的平衡。然后,通过一系列过滤策略,去除不符合高分辨率、低压缩率、丰富纹理细节等要求的图像。最终,筛选出50,000张高质量图像,并额外收集了1,250张测试图像,涵盖了各个语义子类别。
特点
HQ-50K数据集具有以下特点:1)大规模:包含50,000张高质量图像,是目前为止规模最大的图像修复数据集;2)高分辨率:图像平均像素数为2,509,509,分辨率远高于现有数据集;3)低压缩率:图像平均bpp值为12.86,压缩率较低,信息损失小;4)丰富纹理细节:图像高频成分比例高,纹理细节丰富;5)语义多样性:图像涵盖了户外、室内和人工三大类,语义覆盖范围广且分布平衡。
使用方法
HQ-50K数据集可以用于模拟不同类型的图像退化过程,例如超分辨率、去噪、去压缩和去雨等,从而训练和评估图像修复模型。此外,数据集还提供了1,250张测试图像,用于细粒度评估模型在不同语义类别和频率范围内的性能。
背景与挑战
背景概述
在图像理解领域,大规模高质量数据集对于推动技术发展至关重要。然而,在低级图像修复领域,尽管已经收集了一些用于特定修复任务的数据集,例如超分辨率、去噪和去雨,但尚未开发出专门的大规模数据集。针对这一现状,本文提出了一个名为HQ-50K的新的大规模、高质量的图像修复数据集,该数据集包含50,000张具有丰富纹理细节和语义多样性的高质量图像。通过对现有图像修复数据集从五个不同角度(数据规模、分辨率、压缩率、纹理细节和语义覆盖)的分析,我们发现所有这些数据集在某些方面都存在不足。相比之下,HQ-50K在数据收集过程中考虑了这五个方面,并满足了所有要求。此外,本文还提出了一种新的退化感知专家混合模型(DAMoE),该模型能够使单个模型处理多种退化类型和未知级别。大量实验表明,HQ-50K在各种图像修复任务(例如超分辨率、去噪、去雨和去压缩)上始终能够提高性能。此外,我们提出的DAMoE模型在HQ-50K上训练后,优于现有为多个修复任务和级别设计的最先进的统一模型。
当前挑战
尽管HQ-50K在图像修复领域取得了突破性进展,但仍面临一些挑战。首先,尽管HQ-50K包含50,000张图像,但与其他领域的大型数据集相比,其规模仍然较小。其次,虽然HQ-50K在数据收集过程中考虑了多个方面,但仍可能存在其他未考虑的因素,这些因素可能会影响模型的性能。此外,尽管DAMoE模型在多个修复任务上取得了优异的性能,但将其应用于实际场景仍需要进行进一步的研究和探索。
常用场景
经典使用场景
HQ-50K数据集作为大规模、高质量的图像恢复数据集,为图像恢复领域的研究提供了重要的基础。该数据集包含50,000张具有丰富纹理细节和语义多样性的高质量图像,并考虑了数据规模、图像分辨率、压缩率、纹理细节和语义覆盖五个方面,克服了现有图像恢复数据集的不足。HQ-50K可用于各种图像恢复任务,如超分辨率、去噪、去压缩和去雨,通过模拟相应的退化过程来训练和评估图像恢复模型。
衍生相关工作
基于HQ-50K数据集,研究人员提出了新的图像恢复模型DAMoE(Degradation-Aware Mixture of Expert),该模型能够通过混合专家机制动态调整网络推理过程,适应不同的恢复任务。DAMoE模型在多种图像恢复任务上取得了优异的性能,并优于现有的统一恢复模型。此外,HQ-50K数据集也为其他相关研究提供了重要的参考和启示,推动了图像恢复领域的进一步发展。
数据集最近研究
最新研究方向
HQ-50K 数据集针对图像恢复领域存在的数据集规模、分辨率、压缩率、纹理细节和语义覆盖等方面的不足,提出了一个包含 50,000 张高质量图像的大规模数据集。该数据集在多个图像恢复任务上均取得了显著的性能提升,如超分辨率、去噪、去压缩和去雨等。此外,该研究还提出了一个新的退化感知专家混合模型 (DAMoE),该模型能够处理多种退化类型和未知级别的图像恢复任务,并在多个图像恢复任务上优于现有的统一模型。
相关研究论文
- 1HQ-50K: A Large-scale, High-quality Dataset for Image Restoration中国科学技术大学 · 2023年
以上内容由遇见数据集搜集并总结生成



