ProCrop 数据集
收藏arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://bwgzk-keke.github.io/ProCrop/
下载链接
链接失效反馈官方服务:
资源简介:
ProCrop 数据集是微软研究院创建的一个大规模弱标注图像数据集,包含24.2万张图像。该数据集通过将专业图像外扩并迭代优化多种裁剪提案生成,旨在为图像裁剪任务提供丰富多样的高质量裁剪建议。数据集的创建过程涉及使用 GPT-4 生成文本描述和 SAM 生成多尺度构图掩码,然后输入到 ControlNet 进行图像外扩,最终生成多样化的裁剪提案。该数据集是迄今为止最大的公开可用的图像裁剪数据集,旨在解决当前图像裁剪数据集规模不足、多样性不足的问题,为图像美学和构图分析的研究提供有价值的资源。
The ProCrop dataset is a large-scale weakly-annotated image dataset created by Microsoft Research, containing 242,000 images. Generated by expanding professional images and iteratively optimizing multiple cropping proposals, this dataset aims to provide diverse, high-quality cropping suggestions for image cropping tasks. The dataset creation process involves using GPT-4 to generate text descriptions and SAM to generate multi-scale compositional masks, which are then fed into ControlNet for image expansion, ultimately yielding diverse cropping proposals. As the largest publicly available image cropping dataset to date, ProCrop addresses the limitations of existing image cropping datasets in terms of scale and diversity, serving as a valuable resource for research on image aesthetics and compositional analysis.
提供机构:
微软研究院
创建时间:
2025-05-28
搜集汇总
数据集介绍

构建方式
ProCrop数据集的构建采用了创新的弱监督方法,通过专业摄影图像的智能扩展技术生成多样化的裁剪提案。研究团队首先从AVA和Unsplash Lite数据集中精选了80,000张专业级图像作为基础,随后运用ControlNet扩散模型进行图像外绘,模拟原始图像与裁剪版本的关系。该过程结合了GPT-4生成的文本布局描述和SAM提取的多尺度构图掩码,通过迭代优化算法产生242,000个符合美学标准的图像-裁剪对,建立了当前最大规模的构图感知数据集。
使用方法
使用ProCrop数据集时,研究者可采用端到端的检索增强框架进行美学裁剪模型训练。系统首先通过SAM编码器提取查询图像与专业数据库的构图特征,利用ElasticSearch引擎快速匹配最相关的参考图像。随后将检索到的专业构图特征与查询图像特征进行跨注意力融合,输入基于cDETR架构的回归网络生成多个候选裁剪框及其美学评分。对于弱监督训练,建议采用两阶段策略:前100轮进行模型初始化,后400轮通过动态排名生成多样化伪标签。评估时可采用IoU、边界位移和Top-N准确率三项指标,其中IoU阈值建议设为0.85。
背景与挑战
背景概述
ProCrop数据集由约翰霍普金斯大学、俄亥俄州立大学和微软的研究团队于2025年创建,旨在解决图像裁剪领域的美学构图问题。该数据集通过检索专业摄影作品并融合其构图特征,提出了基于检索的美学图像裁剪方法。作为当前公开可用的最大规模图像裁剪数据集,ProCrop包含24.2万张经过弱标注的图像,通过创新的外绘技术和迭代优化流程生成多样化裁剪方案。该数据集突破了传统基于规则方法和数据驱动方法的局限性,为计算机视觉领域的图像美学分析和构图研究提供了重要基准。
当前挑战
ProCrop数据集面临的核心挑战包括:在领域问题层面,需要解决专业构图特征与查询图像的有效融合问题,以及如何准确评估主观性较强的美学质量;在构建过程层面,面临弱标注数据的质量保证、外绘图像的真实性控制,以及大规模多样化裁剪方案的生成效率等挑战。特别是需要平衡构图多样性需求与美学原则遵循之间的矛盾,同时确保生成内容与原始图像的语义一致性。
常用场景
经典使用场景
ProCrop数据集在计算机视觉领域的美学图像裁剪任务中具有广泛的应用。该数据集通过检索专业摄影作品的特征,并将其与查询图像的特征融合,从而生成具有美学价值的裁剪建议。这一方法在图像编辑、社交媒体内容优化以及广告设计等领域展现出显著优势,特别是在需要高质量视觉呈现的场景中。
解决学术问题
ProCrop数据集解决了美学图像裁剪领域中的两大核心问题:数据稀缺性和多样性不足。传统方法依赖于人工标注的数据集,规模有限且难以覆盖复杂的构图场景。ProCrop通过弱监督方法生成大规模数据集(242K图像),并结合检索增强技术,有效提升了模型在监督和弱监督设置下的性能,为美学构图分析提供了新的研究范式。
实际应用
在实际应用中,ProCrop数据集被广泛用于自动化图像裁剪工具,帮助非专业用户快速生成符合美学标准的图像。例如,在电子商务平台中,商品图片的裁剪可以通过ProCrop优化以提升视觉吸引力;在社交媒体内容创作中,该技术能够自动生成适合不同平台展示的裁剪版本,显著提升用户体验和内容传播效果。
数据集最近研究
最新研究方向
在计算机视觉领域,ProCrop数据集代表了图像美学裁剪技术的最新研究方向。该数据集通过检索专业摄影作品的特征,并将其与查询图像的特征融合,从而学习专业构图的美学原则。这一方法不仅克服了传统基于规则方法在捕捉复杂构图时的局限性,还显著减少了对于大量标注数据的依赖。ProCrop数据集的创新之处在于其采用了一种弱监督的方法,通过外绘专业图像并迭代优化多样化的裁剪方案,生成了包含242K图像的大规模数据集。这一数据集不仅在规模上远超现有资源,还通过美学原则指导下的多样化高质量裁剪方案,为图像美学和构图分析的研究提供了宝贵的资源。此外,ProCrop在监督和弱监督设置下的实验结果表明,其在性能上显著优于现有方法,甚至与全监督方法相媲美,这为图像裁剪技术的未来发展开辟了新的可能性。
相关研究论文
- 1ProCrop: Learning Aesthetic Image Cropping from Professional Compositions微软研究院 · 2025年
以上内容由遇见数据集搜集并总结生成



