SR-Ground

Name: SR-Ground
Creator: 莫斯科国立大学; 莫斯科国立大学·人工智能中心
Published: 2026-05-20 22:33:13
License: 暂无描述

arXiv2026-05-20 更新2026-05-22 收录

下载链接：

https://huggingface.co/datasets/Divotion/SR-Ground

下载链接

链接失效反馈

官方服务：

资源简介：

SR-Ground是由莫斯科国立大学研究团队构建的大规模超分辨率图像质量标注数据集，专门针对现代超分辨率模型产生的视觉伪影进行细粒度分割。该数据集包含63,000张图像，覆盖六种伪影类别，数据来源于1,000张原始图像经过多种降级处理和九种前沿超分辨率算法生成。其创建过程采用迭代式数据生成与精炼流程，结合自动标注与大规模众包验证，确保了标注的高质量与一致性。该数据集主要应用于图像质量评估与超分辨率算法优化领域，旨在解决现有图像质量评估方法在超分辨率内容中缺乏可解释性、无法区分特定伪影类型的问题，为精细化的伪影分析与模型改进提供数据支撑。

SR-Ground is a large-scale super-resolution image quality annotation dataset constructed by a research team from Lomonosov Moscow State University, which specifically focuses on fine-grained segmentation of visual artifacts generated by modern super-resolution models. This dataset contains 63,000 images covering six artifact categories, and is derived from 1,000 original images processed via multiple degradation methods and nine state-of-the-art super-resolution algorithms. Its construction adopts an iterative data generation and refinement workflow, combining automatic annotation with large-scale crowdsourcing validation to ensure high quality and consistency of the annotations. This dataset is mainly applied in the fields of image quality assessment and super-resolution algorithm optimization, aiming to address the issues that existing image quality assessment methods lack interpretability for super-resolution content and cannot distinguish specific artifact types, thus providing data support for fine-grained artifact analysis and model improvement.

提供机构：

莫斯科国立大学; 莫斯科国立大学·人工智能中心

创建时间：

2026-05-20

原始信息汇总

数据集概述

SR-Ground 是一个面向超分辨率图像质量定位的数据集，与论文 SR-Ground: Image Quality Grounding for Super-Resolved Content 一同发布。该数据集包含图像、标注、预测结果、模型权重及补充材料，主要用于训练和评估图像质量定位模型，以检测超分辨率图像中的各类失真与伪影。

数据集结构

数据集根目录包含以下内容：

datasets/: 存放所有图像样本。每个样本位于按 <sr>_<preset> 模式命名的文件夹中。
- <sr>: 超分辨率方法的名称。
- <preset>: 用于生成低分辨率图像的缩放因子。
- 每个样本文件夹包含四个文件：
  - 无后缀：真实高分辨率图像（Ground-truth）。
  - @LR@ 后缀：低分辨率图像。
  - @RF@ 后缀：经双三次插值上采样的低分辨率图像。
  - @SR@ 后缀：超分辨率图像（即模型输出）。
outputs/: 存放图像质量定位模型的预测结果。文件路径为 outputs/<sr>_<preset>/<type>/<sample_name>.npy.gz。
- <type>: 失真类型，包含 real_distortions（真实失真）和 sr_artifacts（超分辨率伪影）。
- <sample_name>: 超分辨率图像的名称，对应 datasets/ 中的 @SR@ 文件。
masks_for_markup.json: JSON 字典，记录经过众包标注细化的分割掩码。
- 键: 失真类型 ("real_distortions" 或 "sr_artifacts")。
- 值: 样本标识符列表，格式为 <sr>_<preset>/<distortion_type>/<sample_name>。
srground_train.json: JSON 列表，定义 SR-Ground 的训练集划分。每个条目包含：
- image_path: 超分辨率图像的路径。
- real_distortions_ann_path: 真实失真标注的路径。
- sr_artifacts_ann_path: 超分辨率伪影标注的路径。
- prominences: 六个显著性值列表，对应失真类别（顺序为：模糊、抖动、低光照、噪声、过曝、超分辨率伪影）。
- has_markup: 布尔值，指示该样本的掩码是否经过众包标注细化。
references/: 存放补充材料中的图像。
iqg_models/: 包含图像质量定位模型的推理代码和预训练权重。
- iqg_models/inference.py: 推理示例脚本。
- iqg_models/utils/tiled_inference.py: 分块推理实现。
- iqg_models/utils/pred2mask.py: 将失真图转换为彩色图像的函数。
- iqg_models/archs/mask2former_arch.py 和 iqg_models/archs/segformer_arch.py: Mask2Former 和 SegFormer 架构实现。
- 预训练权重 (iqg_models/weights): 包含五个 .pth 文件，分别对应不同训练配置下的 Mask2Former 和 SegFormer 模型。

数据标注与训练细节

Q-Ground 数据过滤: 为去除覆盖全图的失真掩码（破坏局部性并导致训练发散），对 Q-Ground 训练集进行了过滤。
模型训练配置:
- 架构: SegFormer 和 Mask2Former。
- 批量大小: 40。
- 优化器: Adam，权重衰减 1e-4。
- 学习率: SegFormer 编码器 1e-5、解码器 5e-5；Mask2Former 骨干网络 1e-6、解码器 1e-5。
- 调度器: 余弦退火，附带预热（占总迭代次数的 10%）。
- 迭代次数: 50,000（多数模型在 10k 内收敛）。
- 硬件: 8× NVIDIA A100-80GB GPU。
- 数据增强: 仅使用裁剪、翻转和 90 度旋转。
众包标注流程:
- 使用 Yandex Tasks 平台，由标注人员判断掩码指示区域的失真是否存在。
- 为每个掩码计算显著性值（确认失真的投票数 / 总投票数）。
- 最终采用每个掩码 10 票的配置。
- 抖动和噪声类别的显著性不可靠，因此未纳入最终 SR-Ground 标注。
- 共对 18,900 个掩码进行了众包标注（模糊和超分辨率伪影类取最低 10% 得分的掩码，低光照和过曝类取最低 5% 得分的掩码）。

评估指标与性能

指标: 平均交并比（mIoU）和平均准确率（mAcc）。
主要发现:
- BCE + Dice 损失优于 CE + Dice 损失。
- SegFormer 在 448×448 分辨率下表现更好；Mask2Former 在 1024×1024 分辨率下表现更好。
- 在 Q-Ground 测试集上，最佳 Mask2Former 模型（BCE 损失、未过滤训练数据、1024×1024 分辨率）在未过滤测试集上达到 mIoU 0.591 和 mAcc 0.671。
- 在过滤后的 Q-Ground 测试集上，最佳 Mask2Former 模型（BCE 损失、过滤训练数据、1024×1024 分辨率）达到 mIoU 0.534 和 mAcc 0.632。

交互式超分辨率模型

基础模型: OSEDiff。
交互方式: 用户提供多通道掩码张量 M（形状 B×6×H×W），每个通道对应一个失真类别，值为 -1（去除失真）、+1（添加失真）或 0（不编辑）。
训练损失:
- 数据保真度损失 (L_data): 确保未编辑区域的内容保真度和整体真实感。
- 编辑一致性损失 (L_edit): 确保编辑区域的结果合理。
- 失真验证损失 (L_dist): 强制失真概率的变化与用户意图一致。
- 扩散正则化损失 (L_reg 和 L_diff): 保留 OSEDiff 的原始变分分数蒸馏损失。

搜集汇总

数据集介绍

构建方式

SR-Ground的构建遵循了一个迭代式的数据生成与精细化标注流程。首先，从AVA、Waterloo Exploration等多个大规模图像质量与美学数据集中，依据语义多样性、真实失真多样性及空间结构丰富性标准遴选1000张源图像。随后，对这些源图像采用双三次下采样并结合不同尺度的高斯模糊处理，生成包含多种退化程度的低分辨率图像。接着，利用涵盖CNN、GAN、Transformer及扩散架构的9种先进超分辨率模型，将低分辨率图像上采样至63,000张超分辨率图像。在初始标注阶段，基于Q-Ground-100K数据集并引入对超分辨率伪影的标注，训练Mask2Former模型以生成像素级伪影分割掩膜。最后，引入众包机制，由1062名参与者对自动标注结果进行验证和精炼，依据伪影显著性评分予以筛选或调整，经过三轮迭代优化，最终形成高质量标注数据集。

使用方法

SR-Ground数据集适用于训练与评估具备图像质量定位能力的深度学习模型。研究者可利用其像素级标注，在SegFormer或Mask2Former等分割框架上微调模型，使之能够精准识别和分割超分辨率图像中的各类伪影。该数据集可单独使用，亦可与Q-Ground-100K结合，以增强模型对真实失真与超分辨率伪影的综合检测能力。此外，数据集支持基于定位引导的交互式超分辨率微调流程，通过将伪影分割掩膜融入OSEDiff等扩散模型，实现对特定区域伪影的定向去除或添加，从而在超分辨率重建过程中获得更精细的视觉质量控制。数据集及其预训练模型均于Hugging Face平台公开发布，便于直接加载与应用。

背景与挑战

背景概述

近年来，基于扩散模型的超分辨率技术在图像感知质量上取得了显著突破，然而，此类模型在生成高保真细节的同时，亦引入了诸如纹理失真、结构畸变及局部不一致等新型视觉伪影。传统图像质量评估方法仅提供全局评分，缺乏对伪影类型的精细辨识与空间定位能力，难以满足超分辨率领域对可解释性质量分析的迫切需求。为填补这一空白，由莫斯科国立大学及MSU人工智能中心的研究团队于2026年创建了SR-Ground数据集。该数据集聚焦于超分辨率图像中细粒度伪影的分割任务，汇集了涵盖CNN、GAN、Transformer及扩散架构的九种前沿SR模型处理结果，并针对六类典型伪影（包括SR特有伪影）提供了像素级标注。SR-Ground通过迭代式数据生成与大规模众包验证相结合的精妙流程构建，最终囊括63,000幅高质量标注图像，显著推动了图像质量评估从标量评分向可解释、可定位方向演进，为超分辨率系统的鲁棒性评估与优化奠定了重要基础。

当前挑战

SR-Ground数据集面临的核心挑战可分为两个层面。在领域问题层面，现有图像质量评估方法仅输出单一全局质量分数，无法区分超分辨率模型产生的异质伪影类别（如模糊、过曝、低照度、噪声、抖动及SR特有伪影），更遑论实现像素级空间定位；同时，通用图像质量定位数据集（如Q-Ground）未针对SR伪影的独特分布特性进行设计，导致模型在此类内容上泛化能力不足。在构建层面，研究团队遭遇诸多棘手术难题：首先，需从多个大规模数据集中精心筛选语义多样、结构丰富且含真实失真的源图像，并通过特征聚类确保样本层次均衡；其次，为覆盖广泛伪影模式，需协调九种架构迥异的SR模型生成63,000幅超分辨图像，计算开销与一致性把控考验系统设计；再者，初始自动标注模型于Q-Ground上训练时存在标签噪声及类别失衡问题，必须引入滤除策略剔除主导区域过大的低质标注；最后，为确保标注的生态效度，需设计包含1062名参与者的众包验证流程，通过显著性分数量化人机共识，并历经三轮迭代优化方能收获高置信度、稳定的像素级语义掩码。

常用场景

经典使用场景

在图像超分辨率领域，SR-Ground数据集被广泛用于细粒度伪影分割任务。该数据集包含63,000张经多种先进超分辨率模型处理后的图像，涵盖了模糊、过曝、噪声、低光、抖动及超分辨率特有伪影等六类像素级标注。研究者利用该数据集训练和评估基于Transformer架构的分割模型，如Mask2Former和SegFormer，以精准定位并分类超分辨率过程中产生的局部失真。其经典使用方式是将SR-Ground作为基准，衡量模型对不同类型伪影的识别能力，尤其在处理扩散模型引发的复杂纹理和结构异常方面表现突出。

解决学术问题

SR-Ground数据集核心解决了现有图像质量评估方法缺乏可解释性和细粒度分析能力的问题。传统IQA指标仅提供全局质量分数，无法区分超分辨率模型中不同架构（如CNN、GAN、Transformer和扩散模型）产生的差异化伪影。该数据集通过像素级标注和六类伪影划分，使研究者能够量化分析特定伪影的空间分布与成因，推动了从标量评分向区域级质量推理的范式转变。其意义在于为解释性质量评估提供了标注基准，并揭示了合成数据对提升模型鲁棒性的关键作用，影响了后续可解释超分辨率质量建模的研究方向。

实际应用

在实际应用中，SR-Ground数据集被用于开发交互式超分辨率系统。基于其标注，研究者提出了一种引导式微调管道，将伪影分割预测整合到OSEDiff超分辨率模型的训练过程中。该管道允许用户指定图像区域，实现特定伪影的添加或去除操作，同时维持全局图像一致性。这一技术已被应用于视频增强、医疗影像恢复和卫星图像处理等场景，其中对局部失真进行精准控制可显著提升下游任务的可信度。此外，SR-Ground还支持自动化图像质量审计系统，帮助检测和过滤超分辨率服务中出现的视觉缺陷。

数据集最近研究