UltraHR-100K

Name: UltraHR-100K
Creator: 南京大学软件新技术国家重点实验室, vivo移动通信有限公司
Published: 2025-10-23 23:34:53
License: 暂无描述

arXiv2025-10-23 更新2025-11-05 收录

下载链接：

https://github.com/NJU-PCALab/UltraHR-100k

下载链接

链接失效反馈

官方服务：

资源简介：

UltraHR-100K是一个大规模高质量的UHR图像数据集，包含10万张UHR图像和丰富的文本描述。该数据集由南京大学软件新技术国家重点实验室和vivo移动通信有限公司创建，旨在解决现有UHR图像生成数据集规模小、质量低的问题。UltraHR-100K的图像分辨率均超过3K，经过严格的筛选，确保了图像的细节丰富性、内容复杂性和美学质量。此外，数据集中的图像还配备了由Gemini 2.0生成的详细文本描述，有助于提高生成模型的语义表达能力。

UltraHR-100K is a large-scale high-quality ultra-high-resolution (UHR) image dataset containing 100,000 UHR images and rich textual descriptions. Developed by the State Key Laboratory for Novel Software Technology at Nanjing University and vivo Mobile Communication Co., Ltd., this dataset is designed to address the shortcomings of small scale and low quality in existing UHR image generation datasets. All images in UltraHR-100K have a resolution exceeding 3K, and have undergone strict screening to ensure rich details, complex content and high aesthetic quality. Furthermore, each image in the dataset is paired with detailed textual descriptions generated by Gemini 2.0, which helps to improve the semantic expression capability of generative models.

提供机构：

南京大学软件新技术国家重点实验室, vivo移动通信有限公司

创建时间：

2025-10-23

搜集汇总

数据集介绍

构建方式

在超高清图像生成领域，数据质量直接影响模型性能表现。UltraHR-100K的构建采用严谨的多阶段筛选流程，首先通过网络爬虫收集约40万张原始高分辨率图像，随后基于拉普拉斯方差和Sobel算子进行初步质量过滤，剔除模糊或纹理缺失的样本。核心筛选阶段并行执行三个维度的评估：利用灰度共生矩阵量化细节丰富度，通过香农熵衡量内容复杂度，借助LAION美学预测器评估视觉美感。最终通过三个高质量子集的交集获得10万张同时满足多重标准的优质图像，每张图像分辨率均超过3K，并采用Gemini 2.0生成细粒度文本描述。

使用方法

该数据集主要服务于超高清文本到图像生成模型的训练与评估。在实际应用中，研究人员可采用两阶段训练策略：首先基于标准扩散损失在完整数据集上进行微调，强化模型对超高清图像的语义规划能力；随后引入频率感知后训练方法，通过细节导向时间步采样机制聚焦细节关键去噪步骤，并配合软加权频率正则化技术，利用离散傅里叶变换实现频谱软约束。评估阶段可构建UltraHR-eval4K基准测试集，从整体质量、局部细节、文本对齐等多个维度综合衡量模型性能，为超高清图像生成研究提供标准化评估框架。

背景与挑战

背景概述

超高清图像合成领域在数字艺术与虚拟内容创作中占据关键地位，但传统文本到图像模型受限于固定分辨率，难以生成具备精细细节的视觉内容。UltraHR-100K数据集由南京大学与vivo移动通信公司于2025年联合发布，旨在解决超高清文本到图像生成中大规模高质量数据缺失的核心问题。该数据集包含10万张分辨率超过3K的图像，通过细节丰富度、内容复杂性与美学质量三重维度严格筛选，并配备基于Gemini 2.0生成的细粒度文本描述，为超高清图像生成模型的训练与评估提供了重要基础。

当前挑战

该数据集主要应对超高清图像合成中两大挑战：其一，领域内缺乏能够支撑模型学习复杂纹理与空间结构的大规模高质量数据，现有数据集如Aesthetic-4K在规模与质量上均存在局限；其二，数据构建过程中需克服高分辨率图像采集的稀缺性，通过拉普拉斯方差、灰度共生矩阵与香农熵等多重指标实现纹理复杂度与视觉多样性的量化筛选，同时需确保生成文本描述与图像语义的精准对齐。

常用场景

经典使用场景

在超高清图像生成领域，UltraHR-100K数据集被广泛应用于训练和评估文本到图像扩散模型。该数据集以其超过10万张分辨率高于3K的图像及其精细标注，为模型提供了丰富的视觉细节和语义信息。研究者通常利用该数据集进行超高清场景下的图像合成实验，特别是在需要生成具有复杂纹理和空间布局的视觉内容时，该数据集能够显著提升模型对高频细节的还原能力。

解决学术问题

UltraHR-100K主要解决了超高清图像合成中缺乏大规模高质量训练数据的关键问题。传统文本到图像模型在扩展到超高清分辨率时，常出现细节模糊和结构失真，而该数据集通过严格的细节丰富度、内容复杂度和美学质量筛选，为模型提供了可靠的学习基础。其引入推动了频率感知后训练等方法的创新，有效提升了模型在超高清场景下的细节生成精度和语义对齐能力。

实际应用

该数据集在数字艺术创作、虚拟内容生成和商业设计等领域具有重要应用价值。例如，在影视特效制作中，可利用该数据集训练的模型生成具有逼真纹理的4K场景；在广告设计行业，能够基于文本描述快速合成高保真的产品展示图像。其高质量图像样本还可用于增强现实系统的环境建模，为用户体验提供更丰富的视觉细节支撑。

数据集最近研究