PCARD

Name: PCARD
Creator: 深圳大学, 广东省智能信息处理重点实验室, 粤港澳大数据图像与通信联合实验室, 深圳市数字创意技术重点实验室, 拉夫堡大学, 诺丁汉大学, Everimaging Ltd
Published: 2025-05-06 23:40:14
License: 暂无描述

arXiv2025-05-06 更新2025-05-09 收录

下载链接：

https://arxiv.org/pdf/2505.03638v1

下载链接

链接失效反馈

官方服务：

资源简介：

PCARD数据集是一个基于全景图的数据集，包含来自4000个场景的320K张带有相机姿态信息的图像。该数据集利用Google街景视图中的360°图像，通过球面坐标与等角投影的几何关系生成具有不同相机姿态的视图。数据集的创建过程包括从360°图像生成视图、生成调整标签以及训练相机姿态调整模型。PCARD数据集旨在帮助用户实时调整相机姿态以获得最佳的图像构图，适用于智能点拍摄摄影系统。

The PCARD dataset is a panorama-based dataset containing 320,000 images with camera pose information from 4000 scenes. This dataset leverages 360° images from Google Street View to generate views with varying camera poses via the geometric relationship between spherical coordinates and equirectangular projection. The creation process of the PCARD dataset includes generating views from 360° images, producing adjustment labels, and training a camera pose adjustment model. The PCARD dataset aims to assist users in adjusting camera poses in real time to obtain optimal image composition, and is suitable for intelligent point-and-shoot photography systems.

提供机构：

深圳大学, 广东省智能信息处理重点实验室, 粤港澳大数据图像与通信联合实验室, 深圳市数字创意技术重点实验室, 拉夫堡大学, 诺丁汉大学, Everimaging Ltd

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

PCARD数据集的构建充分利用了Google街景的360度全景图像资源，通过将等距柱状投影（ERP）格式的全景图像映射到单位球体表面，建立了球面坐标系与虚拟相机视角的几何对应关系。基于这一原理，研究团队开发了基于Three.js的网页播放器，从全球20个国家精选了4000个高质量全景场景，通过透视投影生成初始视角和候选视角图像。每个场景平均生成81个候选视图，通过内容保留性（Content Preservation）和局部冗余性（Local Redundancy）双重约束优化搜索空间，最终构建了包含32万张带有相机位姿信息的图像库。

特点

PCARD作为首个基于街景全景图像的构图推荐数据集，其核心特点体现在三维空间标注的完备性。每张图像均精确记录偏航角（θ）和俯仰角（φ）的位姿参数，构建了从二维图像到三维球面坐标的可逆映射关系。数据集创新性地采用五级质量描述词{bad, poor, fair, good, perfect}的连续文本嵌入技术，通过CLIP基础的质量评估模型（CCQA）生成伪标签，能有效辨识相似视角间的细微质量差异。相较于传统构图数据集仅提供二维裁剪建议，PCARD首次实现了三维空间中的相机位姿调整推荐。

使用方法

该数据集支持端到端的智能拍摄系统开发，主要应用于相机位姿调整模型（CPAM）的训练与验证。使用流程分为三阶段：首先通过CCQA模型对初始视角和候选视角进行构图质量评分，生成自适应阈值τ；其次基于质量评分构建建议标签（是否调整）和调整标签（偏航/俯仰角变化量）；最后采用混合专家模型（MoE）架构，通过门控损失函数实现建议预测与位姿调整的序列化决策。评估时可采用球面交并比（IoU）衡量调整精度，同时结合AUC和余弦相似度等多指标验证模型性能。

背景与挑战

背景概述

PCARD（Panorama-based Composition Adjustment Recommendation dataset）数据集由深圳大学、广东智能信息处理重点实验室、英国拉夫堡大学和诺丁汉大学等机构的研究团队于2024年创建，旨在解决智能手机摄影中构图优化的核心问题。该数据集包含来自4000个场景的32万张带有相机姿态信息的图像，通过利用谷歌街景的360度全景图像构建，为智能点拍摄（SPAS）系统提供了数据支持。PCARD的建立填补了传统图像裁剪方法无法实时调整相机姿态的空白，推动了计算机视觉与摄影技术的交叉创新。

当前挑战

PCARD数据集面临的主要挑战包括：1) 领域问题方面，实时相机姿态调整需要解决构图质量评估与空间连续性之间的平衡，传统图像裁剪方法无法直接应用于动态视角优化；2) 构建过程中，大规模数据标注面临效率瓶颈，研究团队创新性地开发了基于CLIP的构图质量评估模型（CCQA），通过可学习文本嵌入技术实现五级质量描述的伪标注；3) 相机姿态调整模型（CPAM）需处理序列决策问题，即先判断是否需要调整再计算具体角度，研究采用混合专家模型与门控损失函数解决样本空间不均衡带来的训练冲突。

常用场景

经典使用场景

PCARD数据集在计算机视觉领域主要用于智能摄影辅助系统的开发与研究。通过该数据集，研究人员可以训练模型实时评估图像构图质量，并为用户提供相机姿态调整建议。该数据集包含32万张带有相机姿态信息的图像，覆盖4000个不同场景，为构图质量评估和相机姿态调整提供了丰富的训练样本。

实际应用

在实际应用中，PCARD数据集支撑的智能摄影系统可集成到智能手机相机中，通过实时分析取景画面，指导普通用户调整拍摄角度以获得专业级构图效果。该系统特别适合旅游摄影、社交媒体内容创作等场景，显著提升了非专业用户的摄影质量。

衍生相关工作

基于PCARD数据集衍生的经典工作包括CLIP-based构图质量评估模型(CCQA)和相机姿态调整模型(CPAM)。CCQA创新性地采用可学习文本嵌入技术，实现了对细微构图差异的准确评估；CPAM则通过专家混合架构解决了顺序决策问题，这些工作为智能摄影系统奠定了重要技术基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集