five

PICD: Photographic Image Composition Dataset

收藏
github2025-06-29 更新2025-07-01 收录
下载链接:
https://github.com/CV-xueba/PICD_ImageComposition
下载链接
链接失效反馈
官方服务:
资源简介:
PICD是一个用于摄影图像构图分析的大规模数据集,目前包含49,123张高质量图像,标注了24种构图类别。该数据集旨在支持AI模型中构图学习的评估和进展,适用于美学质量评估、构图感知图像裁剪等多种任务。

PICD is a large-scale dataset for photographic image composition analysis. Currently, it comprises 49,123 high-quality images annotated with 24 composition categories. This dataset aims to support the evaluation and advancement of composition learning in AI models, and is applicable to various tasks such as aesthetic quality assessment and composition-aware image cropping.
创建时间:
2025-06-24
原始信息汇总

PICD: Photographic Image Composition Dataset 概述

📌 数据集简介

  • 名称: PICD (Photographic Image Composition Dataset)
  • 目的: 支持AI模型中的构图学习评估与推进
  • 应用场景: 美学质量评估、构图感知图像裁剪等
  • 论文: CVPR 2025 Paper
  • 补充材料: Supplementary Appendix

📊 数据集内容

  • 图像数量: 49,123张高质量图像
  • 标注信息: 24种构图类别
  • 标签系统:
    • 元素类型: 点、线、形状(基于康定斯基原理)
    • 排列模式: 三分法则、居中、对角线、垂直、水平、三角形、C曲线、O曲线、S曲线、放射状、密集、分散等

🔗 下载信息

1. 图像

  • 可直接下载部分: 44,577张(来自Unsplash、Pexels等开放平台)
  • 需自行获取部分: 4,546张(来自AVA等不允许重新分发的公共数据集)
  • 替代下载方式: 通过邮件申请(picd2025@outlook.com)

2. 标注

  • 标注文件下载
    • 包含字段: img_id, category_id, category_abbre, category_full_name

📄 许可与条款

🔧 引用

bibtex @inproceedings{zhao2025can, title={Can Machines Understand Composition? Dataset and Benchmark for Photographic Image Composition Embedding and Understanding}, author={Zhao, Zhaoran and Lu, Peng and Zhang, Anran and Li, Peipei and Li, Xia and Liu, Xuannan and Hu, Yang and Chen, Shiyi and Wang, Liwei and Guo, Wenhao}, booktitle={Proceedings of the Computer Vision and Pattern Recognition Conference}, pages={14411--14421}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
PICD数据集作为摄影图像构图分析领域的重要资源,其构建过程体现了严谨的学术规范。研究团队从开放平台和可再分发开源数据集中精选了49,123张高质量图像,采用基于康定斯基构图原理的双轴标注体系,将图像划分为24个构图类别。标注系统通过元素类型(点、线、面)和排列模式(三分法、居中、对角线等)两个维度进行结构化分类,并经过严格的验证流程确保标注质量。对于受版权限制的图像,数据集创新性地采用ID映射方案,既遵守知识产权规范又保证了数据完整性。
特点
PICD数据集最显著的特点是建立了系统化的摄影构图分类体系,填补了计算机视觉领域在构图理解方面的数据空白。数据集涵盖24种构图类别,每张图像都经过专业标注验证,具有较高的学术可信度。其双轴分类框架将艺术理论与计算机视觉任务有机结合,为构图感知的AI模型开发提供了标准化评估基准。数据集规模宏大且持续扩展,未来还将纳入负样本、构图质量评分等增强维度,为多模态构图分析创造更丰富的研究条件。
使用方法
使用PICD数据集时需注意其双部分数据获取机制:可直接下载的44,577张授权图像通过网盘链接获取,其余4,546张需根据ID映射文件从原始来源下载。标注文件采用CSV格式,包含图像ID、类别编号及完整名称等关键字段,与论文中的分类体系完全对应。研究者需遵守CC BY-NC-SA 4.0许可协议,通过引用指定文献尊重知识产权。数据集特别适用于图像美学评估、构图感知裁剪等计算机视觉任务,其结构化标注体系也支持新型构图理解算法的开发与验证。
背景与挑战
背景概述
PICD(Photographic Image Composition Dataset)是由Zhao等研究人员在2025年CVPR会议上提出的大规模摄影图像构图分析数据集,旨在探索机器对图像构图的理解能力。该数据集包含49,123张高质量图像,标注了24种构图类别,涵盖了从点到线再到形状的多种元素类型以及三分法、对角线等多种排列模式。PICD的构建基于康定斯基的构图原则,为计算机视觉领域的美学质量评估、构图感知图像裁剪等任务提供了重要基准。该数据集的发布不仅填补了构图理解领域的数据空白,也为AI模型在艺术和摄影领域的应用开辟了新方向。
当前挑战
PICD数据集面临的挑战主要集中在构图理解的复杂性和数据构建的严谨性上。构图作为摄影美学的核心要素,其主观性和多样性使得机器难以准确捕捉人类感知的构图规则。数据集中24种构图类别的定义和标注需要高度专业化的知识,且部分类别因出现频率较低而被合并或排除,这可能导致模型在罕见构图模式上的泛化能力不足。此外,数据集构建过程中涉及大量来自不同来源的图像,其版权和分发限制增加了数据整合的难度,部分图像仍需用户从原始平台获取,影响了数据使用的便捷性。未来扩展的负样本和质量评分等标注将进一步考验数据集的完整性和实用性。
常用场景
经典使用场景
在计算机视觉领域,PICD数据集为图像构图分析提供了丰富的标注资源。该数据集通过24种构图类别的精细标注,成为评估机器学习模型构图理解能力的黄金标准。研究者们利用其层次化标注体系,能够深入探索点、线、面等视觉元素与三分法、对角线等排列模式的复杂组合规律。
衍生相关工作
基于PICD的基准测试催生了多篇CVPR顶会论文,包括构图敏感的图像生成模型CompGAN和动态构图评估框架DynaComp。其标注体系被迁移应用于视频构图分析数据集MovieComp的构建,启发后续研究提出了跨模态构图表征学习框架CompCLIP,推动了构图理解从静态向动态、从视觉向多模态的拓展。
数据集最近研究
最新研究方向
在计算机视觉领域,图像构图分析正逐渐成为美学计算与智能摄影的核心研究方向。PICD数据集通过引入24种构图类别的大规模标注数据,为机器学习模型理解视觉艺术规律提供了重要基准。当前研究热点集中在构图嵌入表示学习、跨模态构图生成以及基于深度学习的自动化构图评估系统构建。该数据集通过融合康定斯基艺术原理与经典摄影规则,为探索神经网络在美学感知方面的可解释性开辟了新路径。随着生成式AI在图像创作中的广泛应用,PICD的构图标注体系正在被用于改进扩散模型的构图控制能力,相关成果已推动智能摄影助手、自动化平面设计等应用场景的突破性进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作