DisText-SR
收藏github2026-03-22 更新2026-03-12 收录
下载链接:
https://github.com/JL6666JL/DTPSR
下载链接
链接失效反馈官方服务:
资源简介:
DisText-SR包含约95,000组结构化注释:全局描述(`c_g`)和每个段(来自全景分割)的低频文本(`c_lf^(i)`)和高频文本(`c_hf^(i)`)。低频文本描述形状/大小/颜色/方向(无精细细节),高频文本描述纹理/材料/边缘/细微细节。文本通过冻结的CLIP文本编码器编码以形成用于指导的嵌入。
The DisText-SR dataset consists of approximately 95,000 sets of structured annotations: a global description (`c_g`), low-frequency text (`c_lf^(i)`) and high-frequency text (`c_hf^(i)`) for each segment derived from panoptic segmentation. Low-frequency text describes shapes, sizes, colors and orientations without fine-grained details, while high-frequency text covers textures, materials, edges and subtle details. All texts are encoded via a frozen CLIP text encoder to generate guiding embeddings.
创建时间:
2026-03-02
原始信息汇总
DTPSR数据集概述
数据集基本信息
- 数据集名称:DisText-SR
- 所属研究项目:DTPSR (Disentangled Textual Priors for Diffusion-based Image Super-Resolution)
- 官方实现仓库地址:https://github.com/JL6666JL/DTPSR
数据集规模与内容
- 数据规模:包含约95,000组结构化图像-文本数据。
- 数据构成:每组数据包含一个全局描述和基于图像分割的区域级描述。
- 标注结构:
- 全局描述 (
c_g):描述图像的整体场景。 - 区域级描述:对每个通过全景分割得到的图像区域
S_i,提供两种描述:- 低频文本 (
c_lf^(i)):描述形状、大小、颜色、方向等结构/布局/颜色信息,不包含精细细节。 - 高频文本 (
c_hf^(i)):描述纹理、材质、边缘、细微细节等信息。
- 低频文本 (
- 全局描述 (
数据集构建与用途
- 构建方法:通过全景分割结合多模态大语言模型提示生成。
- 文本编码:使用冻结的CLIP文本编码器将文本转换为嵌入向量,用于指导图像超分辨率过程。
- 主要用途:为基于扩散模型的图像超分辨率框架DTPSR提供解耦的文本先验,以实现可控、可解释的图像生成指导。
相关技术特性
- 解耦文本先验:按照空间层次(全局与局部)和频率语义(低频与高频)对文本描述进行解耦。
- 渐进式语义注入:通过专门的交叉注意力模块实现,包括全局文本交叉注意力、局部低频交叉注意力、局部高频交叉注意力以及用于保持图像一致性的LR特征交叉注意力。
- 多分支无分类器指导:结合频率感知的负面提示。
搜集汇总
数据集介绍
构建方式
在计算机视觉与图像超分辨率研究领域,数据标注的精细度直接影响模型性能的上限。DisText-SR数据集的构建采用了系统化的层级标注策略,其核心流程始于对约95,000张图像进行全景分割,以精准识别图像中的各个语义区域。随后,借助先进的多模态大语言模型,为每张图像生成全局描述,并为分割出的每个独立区域分别生成低频与高频语义文本描述。低频描述聚焦于物体的宏观属性,如形状、色彩与布局;高频描述则刻画纹理、材质与边缘细节,从而形成结构化的图像-文本对,为模型提供了 disentangled 的语义先验。
特点
该数据集的核心特征在于其解耦的、层次化的文本标注体系。区别于传统的单一图像描述,DisText-SR将文本先验依据空间层次与频率语义进行分离,提供了全局场景描述与针对每个图像区域的局部描述。局部描述进一步细化为表征结构信息的低频文本与刻画细节纹理的高频文本。这种结构化的设计使得数据集能够为扩散模型提供可解释、可控制的语义引导,支持模型在超分辨率任务中分别理解和增强图像的不同层面信息,实现了从整体布局到局部细节的渐进式语义注入。
使用方法
在具体应用中,DisText-SR数据集主要用于训练和评估如DTPSR这类基于扩散模型的图像超分辨率框架。研究者在模型训练阶段,利用数据集中结构化的文本嵌入,通过专门的交叉注意力模块(如GTCA、LFCA、HFCA)将不同层级的语义先验逐步注入到扩散去噪过程中。全局描述引导场景构图,局部低频描述优化物体结构,局部高频描述则增强细节与纹理。同时,结合低分辨率图像特征交叉注意力模块,确保生成的高分辨率图像与原始输入保持身份一致性。数据集为探索文本引导的图像生成与修复提供了高质量的基准。
背景与挑战
背景概述
在计算机视觉领域,图像超分辨率技术旨在从低分辨率图像中恢复高分辨率细节,其发展历经从传统插值方法到基于深度学习的生成模型的演进。DisText-SR数据集由DTPSR研究团队于近期构建,核心研究问题聚焦于如何利用解耦的文本先验信息,以空间层次和频率语义为维度,为扩散模型驱动的超分辨率任务提供可控且可解释的指导。该数据集包含约9.5万组结构化图像-文本对,通过全景分割与多模态大语言模型生成全局及区域级别的低频与高频描述,为探索文本引导的图像生成与增强开辟了新路径,对推动语义感知的超分辨率研究具有显著影响力。
当前挑战
DisText-SR数据集所应对的领域挑战在于,传统超分辨率方法往往难以在提升分辨率的同时保持语义一致性与细节真实性,特别是在复杂场景中平衡结构布局与纹理细节的生成。构建过程中的挑战则体现为多模态数据的精准对齐与标注,需通过全景分割技术实现图像区域的精确划分,并借助大语言模型生成解耦的低频与高频文本描述,确保文本先验在空间和频率维度上的有效分离,同时维持大规模数据集的标注质量与一致性。
常用场景
经典使用场景
在图像超分辨率领域,DisText-SR数据集为基于扩散模型的生成式方法提供了结构化文本先验。该数据集通过全局描述与局部区域的高低频语义标注,使得模型能够依据文本引导,在重建高分辨率图像时精确控制场景布局、物体结构及纹理细节。这一设计使得研究者能够系统探索文本与视觉特征在空间层次和频率语义上的解耦关系,为可控、可解释的图像增强奠定了数据基础。
解决学术问题
DisText-SR数据集有效解决了图像超分辨率中语义先验利用不足的学术难题。传统方法往往依赖低分辨率图像本身的视觉信息,难以恢复高频细节或保持语义一致性。该数据集通过提供解耦的文本描述,使模型能够注入分层次的语义先验,从而在提升图像质量的同时,确保内容的结构合理性与细节真实性。这不仅推动了扩散模型在超分辨率任务中的理论发展,也为多模态融合研究提供了新的范式。
衍生相关工作
围绕DisText-SR数据集,已衍生出一系列经典研究工作,其中最具代表性的是DTPSR框架。该框架利用数据集的解耦文本先验,设计了全局与局部交叉注意力模块,实现了渐进式语义注入。此外,基于该数据集的多分支分类器引导策略、频率感知负提示等技术,进一步推动了文本引导超分辨率模型的发展,为后续研究提供了重要的方法参考与评估基准。
以上内容由遇见数据集搜集并总结生成



