Aesthetic-4K

github2025-03-27 更新2025-03-28 收录

下载链接：

https://github.com/zhang0jhon/diffusion-4k

下载链接

链接失效反馈

官方服务：

资源简介：

为了解决公开可用的4K图像合成数据集的缺失问题，我们构建了Aesthetic-4K，一个用于超高清图像生成的全面基准。我们精心挑选了高质量的4K数据集，并附有由GPT-4o生成的标题。此外，我们引入了GLCM分数和压缩比指标来评估细节，并结合FID、美学和CLIPScore等整体指标，全面评估超高清图像。

To address the lack of publicly available 4K image synthesis datasets, we constructed Aesthetic-4K, a comprehensive benchmark for ultra-high-definition (UHD) image generation. We carefully curated a high-quality 4K dataset paired with captions generated by GPT-4o. Furthermore, we introduced GLCM scores and compression ratio metrics to evaluate fine-grained details, and combined overall metrics including FID, aesthetic score, and CLIPScore to conduct a comprehensive evaluation of ultra-high-definition images.

创建时间：

2025-02-28

原始信息汇总

Diffusion-4K数据集概述

基本信息

数据集名称: Diffusion-4K
相关论文: Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2025)
数据集发布地址: Aesthetic-4K on Hugging Face

数据集简介

核心目标: 解决公开可用的4K图像合成数据集的缺失问题
内容构成:
- 高质量4K图像
- 由GPT-4o生成的图像描述
评估指标:
- 细粒度评估: GLCM Score, Compression Ratio
- 整体评估: FID, Aesthetics, CLIPScore

技术亮点

Wavelet-based Fine-tuning: 提出基于小波的微调方法，可直接训练4K图像
支持的扩散模型: SD3-2B, Flux-12B

数据集使用

下载地址: Aesthetic-4K on Hugging Face
预训练模型:

训练与生成

训练脚本:
- train_flux.sh (Flux-12B)
- train_sd3.sh (SD3-2B)
图像生成:
- Flux-12B: test_flux.py
- SD3-2B: test_sd3.py
- 可调参数: height, width, guidance_scale, num_inference_steps, seed

评估方法

生成与评估:
- generate_and_eval_fid.py (计算FID, CLIPScore, Aesthetics)
- eval.py (计算GLCM Score, Compression Ratio)

引用

bibtex @inproceedings{zhang2025diffusion4k, title={Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models}, author={Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo and Di Huang}, year={2025}, booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, }

搜集汇总

数据集介绍

构建方式

在超高清图像生成领域，Aesthetic-4K数据集的构建填补了4K分辨率图像合成基准的空白。研究团队通过精心筛选的高质量4K图像素材，结合GPT-4o生成的精准文本描述，构建了这一综合性评估基准。为确保数据质量，团队创新性地引入了GLCM评分和压缩率等量化指标，与FID、美学评分和CLIPScore等传统评估维度相结合，形成了多层次的超高清图像评估体系。

特点

Aesthetic-4K数据集作为超高清图像生成领域的标杆，其最显著的特点是专注于4096×4096分辨率的图像质量评估。该数据集不仅包含经过严格筛选的4K图像素材，还配备了由先进语言模型生成的精准文本描述。特别值得注意的是，数据集引入了创新的评估指标GLCM评分，能够有效捕捉图像的纹理细节特征，配合压缩率指标共同评估图像的精细程度，为超高清图像生成模型的性能评估提供了全面而精确的基准。

使用方法

使用Aesthetic-4K数据集需要先通过Hugging Face平台获取完整数据资源。研究人员可将其与主流扩散模型如SD3-2B或Flux-12B配合使用，通过修改配置文件参数进行模型训练。在实际应用中，用户可通过调整生成高度、宽度、引导尺度等关键参数，实现不同尺寸和风格的4K图像生成。数据集还提供了完整的评估流程，包括FID、CLIPScore等传统指标的计算，以及GLCM评分等创新指标的测量，确保对生成图像质量的全面评估。

背景与挑战

背景概述

Aesthetic-4K数据集由Zhang等人于2025年提出，旨在解决超高清图像合成领域缺乏公开基准的难题。作为CVPR 2025会议论文《Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models》的核心组成部分，该数据集由研究团队精心筛选4K分辨率图像并配以GPT-4o生成的文本描述构建而成。研究团队创新性地引入了GLCM评分和压缩率等细粒度评估指标，结合FID、美学评分和CLIPScore等整体性度量，为超高清图像生成领域建立了首个系统性评估框架。该数据集的发布显著推动了潜在扩散模型在4K图像合成方向的发展，为后续研究提供了重要的基准平台。

当前挑战

在领域问题层面，Aesthetic-4K需解决超高清图像合成中细节保持与全局协调的平衡难题，传统评估指标难以捕捉4K分辨率下的纹理细节和结构连贯性。构建过程中面临双重挑战：数据采集需克服高质量4K图像稀缺性问题，每张图像需经过严格的美学筛选；标注环节依赖GPT-4o生成精准文本描述，要求复杂的跨模态对齐。技术层面，开发新型评估指标GLCM Score需解决传统方法在超高清场景下的适应性缺陷，而大规模4K数据训练对计算资源提出极高要求，涉及显存优化和分布式训练等关键技术突破。

常用场景

经典使用场景

在超高清图像生成领域，Aesthetic-4K数据集作为首个公开的4K分辨率图像合成基准，为研究者提供了评估模型生成能力的标准化平台。其精心筛选的4K图像与GPT-4o生成的文本描述构成多模态数据对，特别适用于测试扩散模型在4096×4096分辨率下的纹理细节保持能力与语义一致性。通过内置的GLCM评分与压缩率指标，该数据集能系统量化生成图像的局部精细度与全局协调性，成为超分生成任务中的黄金测试集。

实际应用

在影视特效制作中，Aesthetic-4K支持生成无缝衔接实拍场景的4K级数字资产；数字艺术领域创作者可基于其高保真生成能力快速原型化概念设计；虚拟现实系统则利用该数据集训练的模型实时渲染逼真环境贴图。工业级应用如医疗影像增强、卫星图像超分等领域，均能通过迁移学习将模型适配至专业场景，显著提升高精度图像的生成效率。

衍生相关工作

以该数据集为基础，CVPR'25同期涌现多项突破性研究：Wavelet-DM首次实现512×512到4K的跨分辨率生成；UHD-GAN提出基于对抗学习的超分框架；另有团队开发出4K视频生成系统V-Transformer。开源社区构建的Aesthetic-4K-EXT扩展集新增10万标注样本，相关成果在ECCV'26形成超高清生成专题研讨会。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集