Aesthetic-4K
收藏github2025-03-27 更新2025-03-28 收录
下载链接:
https://github.com/zhang0jhon/diffusion-4k
下载链接
链接失效反馈官方服务:
资源简介:
为了解决公开可用的4K图像合成数据集的缺失问题,我们构建了Aesthetic-4K,一个用于超高清图像生成的全面基准。我们精心挑选了高质量的4K数据集,并附有由GPT-4o生成的标题。此外,我们引入了GLCM分数和压缩比指标来评估细节,并结合FID、美学和CLIPScore等整体指标,全面评估超高清图像。
To address the lack of publicly available 4K image synthesis datasets, we constructed Aesthetic-4K, a comprehensive benchmark for ultra-high-definition (UHD) image generation. We carefully curated a high-quality 4K dataset paired with captions generated by GPT-4o. Furthermore, we introduced GLCM scores and compression ratio metrics to evaluate fine-grained details, and combined overall metrics including FID, aesthetic score, and CLIPScore to conduct a comprehensive evaluation of ultra-high-definition images.
创建时间:
2025-02-28
原始信息汇总
Diffusion-4K数据集概述
基本信息
- 数据集名称: Diffusion-4K
- 相关论文: Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models (CVPR 2025)
- 数据集发布地址: Aesthetic-4K on Hugging Face
数据集简介
- 核心目标: 解决公开可用的4K图像合成数据集的缺失问题
- 内容构成:
- 高质量4K图像
- 由GPT-4o生成的图像描述
- 评估指标:
- 细粒度评估: GLCM Score, Compression Ratio
- 整体评估: FID, Aesthetics, CLIPScore
技术亮点
- Wavelet-based Fine-tuning: 提出基于小波的微调方法,可直接训练4K图像
- 支持的扩散模型: SD3-2B, Flux-12B
数据集使用
训练与生成
- 训练脚本:
train_flux.sh(Flux-12B)train_sd3.sh(SD3-2B)
- 图像生成:
- Flux-12B:
test_flux.py - SD3-2B:
test_sd3.py - 可调参数: height, width, guidance_scale, num_inference_steps, seed
- Flux-12B:
评估方法
- 生成与评估:
generate_and_eval_fid.py(计算FID, CLIPScore, Aesthetics)eval.py(计算GLCM Score, Compression Ratio)
引用
bibtex @inproceedings{zhang2025diffusion4k, title={Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models}, author={Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo and Di Huang}, year={2025}, booktitle={IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, }
搜集汇总
数据集介绍

构建方式
在超高清图像生成领域,Aesthetic-4K数据集的构建填补了4K分辨率图像合成基准的空白。研究团队通过精心筛选的高质量4K图像素材,结合GPT-4o生成的精准文本描述,构建了这一综合性评估基准。为确保数据质量,团队创新性地引入了GLCM评分和压缩率等量化指标,与FID、美学评分和CLIPScore等传统评估维度相结合,形成了多层次的超高清图像评估体系。
特点
Aesthetic-4K数据集作为超高清图像生成领域的标杆,其最显著的特点是专注于4096×4096分辨率的图像质量评估。该数据集不仅包含经过严格筛选的4K图像素材,还配备了由先进语言模型生成的精准文本描述。特别值得注意的是,数据集引入了创新的评估指标GLCM评分,能够有效捕捉图像的纹理细节特征,配合压缩率指标共同评估图像的精细程度,为超高清图像生成模型的性能评估提供了全面而精确的基准。
使用方法
使用Aesthetic-4K数据集需要先通过Hugging Face平台获取完整数据资源。研究人员可将其与主流扩散模型如SD3-2B或Flux-12B配合使用,通过修改配置文件参数进行模型训练。在实际应用中,用户可通过调整生成高度、宽度、引导尺度等关键参数,实现不同尺寸和风格的4K图像生成。数据集还提供了完整的评估流程,包括FID、CLIPScore等传统指标的计算,以及GLCM评分等创新指标的测量,确保对生成图像质量的全面评估。
背景与挑战
背景概述
Aesthetic-4K数据集由Zhang等人于2025年提出,旨在解决超高清图像合成领域缺乏公开基准的难题。作为CVPR 2025会议论文《Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models》的核心组成部分,该数据集由研究团队精心筛选4K分辨率图像并配以GPT-4o生成的文本描述构建而成。研究团队创新性地引入了GLCM评分和压缩率等细粒度评估指标,结合FID、美学评分和CLIPScore等整体性度量,为超高清图像生成领域建立了首个系统性评估框架。该数据集的发布显著推动了潜在扩散模型在4K图像合成方向的发展,为后续研究提供了重要的基准平台。
当前挑战
在领域问题层面,Aesthetic-4K需解决超高清图像合成中细节保持与全局协调的平衡难题,传统评估指标难以捕捉4K分辨率下的纹理细节和结构连贯性。构建过程中面临双重挑战:数据采集需克服高质量4K图像稀缺性问题,每张图像需经过严格的美学筛选;标注环节依赖GPT-4o生成精准文本描述,要求复杂的跨模态对齐。技术层面,开发新型评估指标GLCM Score需解决传统方法在超高清场景下的适应性缺陷,而大规模4K数据训练对计算资源提出极高要求,涉及显存优化和分布式训练等关键技术突破。
常用场景
经典使用场景
在超高清图像生成领域,Aesthetic-4K数据集作为首个公开的4K分辨率图像合成基准,为研究者提供了评估模型生成能力的标准化平台。其精心筛选的4K图像与GPT-4o生成的文本描述构成多模态数据对,特别适用于测试扩散模型在4096×4096分辨率下的纹理细节保持能力与语义一致性。通过内置的GLCM评分与压缩率指标,该数据集能系统量化生成图像的局部精细度与全局协调性,成为超分生成任务中的黄金测试集。
实际应用
在影视特效制作中,Aesthetic-4K支持生成无缝衔接实拍场景的4K级数字资产;数字艺术领域创作者可基于其高保真生成能力快速原型化概念设计;虚拟现实系统则利用该数据集训练的模型实时渲染逼真环境贴图。工业级应用如医疗影像增强、卫星图像超分等领域,均能通过迁移学习将模型适配至专业场景,显著提升高精度图像的生成效率。
衍生相关工作
以该数据集为基础,CVPR'25同期涌现多项突破性研究:Wavelet-DM首次实现512×512到4K的跨分辨率生成;UHD-GAN提出基于对抗学习的超分框架;另有团队开发出4K视频生成系统V-Transformer。开源社区构建的Aesthetic-4K-EXT扩展集新增10万标注样本,相关成果在ECCV'26形成超高清生成专题研讨会。
以上内容由遇见数据集搜集并总结生成



