PICD: Photographic Image Composition Dataset

github2025-06-29 更新2025-07-01 收录

下载链接：

https://github.com/CV-xueba/PICD_ImageComposition

下载链接

链接失效反馈

官方服务：

资源简介：

PICD是一个用于摄影图像构图分析的大规模数据集，目前包含49,123张高质量图像，标注了24种构图类别。该数据集旨在支持AI模型中构图学习的评估和进展，适用于美学质量评估、构图感知图像裁剪等多种任务。

PICD is a large-scale dataset for photographic image composition analysis. Currently, it comprises 49,123 high-quality images annotated with 24 composition categories. This dataset aims to support the evaluation and advancement of composition learning in AI models, and is applicable to various tasks such as aesthetic quality assessment and composition-aware image cropping.

创建时间：

2025-06-24

原始信息汇总

PICD: Photographic Image Composition Dataset 概述

📌 数据集简介

名称: PICD (Photographic Image Composition Dataset)
目的: 支持AI模型中的构图学习评估与推进
应用场景: 美学质量评估、构图感知图像裁剪等
论文: CVPR 2025 Paper
补充材料: Supplementary Appendix

📊 数据集内容

图像数量: 49,123张高质量图像
标注信息: 24种构图类别
标签系统:
- 元素类型: 点、线、形状（基于康定斯基原理）
- 排列模式: 三分法则、居中、对角线、垂直、水平、三角形、C曲线、O曲线、S曲线、放射状、密集、分散等

🔗 下载信息

1. 图像

可直接下载部分: 44,577张（来自Unsplash、Pexels等开放平台）
- Baidu Netdisk下载链接
需自行获取部分: 4,546张（来自AVA等不允许重新分发的公共数据集）
- 图像ID映射文件
替代下载方式: 通过邮件申请（picd2025@outlook.com）

2. 标注

标注文件下载
- 包含字段: img_id, category_id, category_abbre, category_full_name

📄 许可与条款

许可证: CC BY-NC-SA 4.0
使用条款: PICD Dataset Terms of Use

🔧 引用

bibtex @inproceedings{zhao2025can, title={Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and Understanding}, author={Zhao, Zhaoran and Lu, Peng and Zhang, Anran and Li, Peipei and Li, Xia and Liu, Xuannan and Hu, Yang and Chen, Shiyi and Wang, Liwei and Guo, Wenhao}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference}, pages={14411--14421}, year={2025} }

搜集汇总

数据集介绍

构建方式

PICD数据集作为摄影图像构图分析领域的重要资源，其构建过程体现了严谨的学术规范。研究团队从开放平台和可再分发开源数据集中精选了49,123张高质量图像，采用基于康定斯基构图原理的双轴标注体系，将图像划分为24个构图类别。标注系统通过元素类型（点、线、面）和排列模式（三分法、居中、对角线等）两个维度进行结构化分类，并经过严格的验证流程确保标注质量。对于受版权限制的图像，数据集创新性地采用ID映射方案，既遵守知识产权规范又保证了数据完整性。

特点

PICD数据集最显著的特点是建立了系统化的摄影构图分类体系，填补了计算机视觉领域在构图理解方面的数据空白。数据集涵盖24种构图类别，每张图像都经过专业标注验证，具有较高的学术可信度。其双轴分类框架将艺术理论与计算机视觉任务有机结合，为构图感知的AI模型开发提供了标准化评估基准。数据集规模宏大且持续扩展，未来还将纳入负样本、构图质量评分等增强维度，为多模态构图分析创造更丰富的研究条件。

使用方法

使用PICD数据集时需注意其双部分数据获取机制：可直接下载的44,577张授权图像通过网盘链接获取，其余4,546张需根据ID映射文件从原始来源下载。标注文件采用CSV格式，包含图像ID、类别编号及完整名称等关键字段，与论文中的分类体系完全对应。研究者需遵守CC BY-NC-SA 4.0许可协议，通过引用指定文献尊重知识产权。数据集特别适用于图像美学评估、构图感知裁剪等计算机视觉任务，其结构化标注体系也支持新型构图理解算法的开发与验证。

背景与挑战

背景概述

PICD（Photographic Image Composition Dataset）是由Zhao等研究人员在2025年CVPR会议上提出的大规模摄影图像构图分析数据集，旨在探索机器对图像构图的理解能力。该数据集包含49,123张高质量图像，标注了24种构图类别，涵盖了从点到线再到形状的多种元素类型以及三分法、对角线等多种排列模式。PICD的构建基于康定斯基的构图原则，为计算机视觉领域的美学质量评估、构图感知图像裁剪等任务提供了重要基准。该数据集的发布不仅填补了构图理解领域的数据空白，也为AI模型在艺术和摄影领域的应用开辟了新方向。

当前挑战

PICD数据集面临的挑战主要集中在构图理解的复杂性和数据构建的严谨性上。构图作为摄影美学的核心要素，其主观性和多样性使得机器难以准确捕捉人类感知的构图规则。数据集中24种构图类别的定义和标注需要高度专业化的知识，且部分类别因出现频率较低而被合并或排除，这可能导致模型在罕见构图模式上的泛化能力不足。此外，数据集构建过程中涉及大量来自不同来源的图像，其版权和分发限制增加了数据整合的难度，部分图像仍需用户从原始平台获取，影响了数据使用的便捷性。未来扩展的负样本和质量评分等标注将进一步考验数据集的完整性和实用性。

常用场景

经典使用场景

在计算机视觉领域，PICD数据集为图像构图分析提供了丰富的标注资源。该数据集通过24种构图类别的精细标注，成为评估机器学习模型构图理解能力的黄金标准。研究者们利用其层次化标注体系，能够深入探索点、线、面等视觉元素与三分法、对角线等排列模式的复杂组合规律。

衍生相关工作

基于PICD的基准测试催生了多篇CVPR顶会论文，包括构图敏感的图像生成模型CompGAN和动态构图评估框架DynaComp。其标注体系被迁移应用于视频构图分析数据集MovieComp的构建，启发后续研究提出了跨模态构图表征学习框架CompCLIP，推动了构图理解从静态向动态、从视觉向多模态的拓展。

数据集最近研究