PreciseCam Dataset
收藏arXiv2025-01-22 更新2025-01-24 收录
下载链接:
https://graphics.unizar.es/projects/PreciseCam2024
下载链接
链接失效反馈官方服务:
资源简介:
PreciseCam数据集由萨拉戈萨大学和Adobe Research联合创建,包含57,380张单视角RGB图像,每张图像均配有文本提示和真实相机参数。该数据集涵盖了广泛的相机参数和多样化的场景,特别适用于解决文本到图像生成中的精确相机控制问题。数据集的创建过程基于用户提供的文本提示和相机参数,通过控制网络(ControlNet)生成图像。该数据集的应用领域主要集中在图像生成和视频生成中,旨在通过精确的相机控制增强生成模型的表达能力,解决传统方法中相机视角控制不足的问题。
The PreciseCam dataset was jointly created by the University of Zaragoza and Adobe Research. It contains 57,380 single-view RGB images, each paired with a text prompt and ground-truth camera parameters. The dataset covers a wide range of camera parameters and diverse scenarios, and is particularly suitable for addressing the problem of precise camera control in text-to-image generation. The dataset is constructed based on user-provided text prompts and camera parameters, with images generated via the ControlNet framework. Its main application fields focus on image and video generation, aiming to enhance the expressive capability of generative models through precise camera control, and solve the problem of insufficient camera view control in traditional methods.
提供机构:
萨拉戈萨大学, I3A; Adobe Research
创建时间:
2025-01-22
搜集汇总
数据集介绍

构建方式
PreciseCam数据集的构建基于360度全景图像,通过从这些图像中裁剪出特定相机参数对应的区域,生成带有真实相机参数的图像。具体而言,数据集通过采样四种相机参数(roll、pitch、vFoV和ξ),并从360度图像中提取相应的区域,生成带有PF-US相机参数表示的图像。为了确保数据的多样性,数据集涵盖了广泛的相机参数范围,并使用了多个360度图像数据集,包括360-SOD、CVRG-Pano等。最终,数据集包含57,380张RGB图像,每张图像都配有文本提示和真实的PF-US相机参数。
特点
PreciseCam数据集的特点在于其精确的相机参数控制和广泛的场景覆盖。数据集中的每张图像都附带了四种相机参数(roll、pitch、vFoV和ξ),这些参数通过PF-US表示法编码为像素级的向量信息,能够精确描述相机视角对图像的影响。此外,数据集涵盖了从室内到室外、从自然景观到城市环境的多样化场景,确保了模型在训练过程中能够学习到不同场景下的相机控制能力。这种多样性和精确性使得PreciseCam数据集特别适用于需要精确相机控制的文本到图像生成任务。
使用方法
PreciseCam数据集的使用方法主要围绕文本到图像生成任务展开。用户可以通过输入文本提示和相机参数(roll、pitch、vFoV和ξ),生成具有特定视角和镜头效果的图像。数据集中的PF-US表示法将相机参数编码为像素级的向量信息,这些信息通过ControlNet模块与扩散模型结合,指导图像生成过程。用户可以通过调整相机参数滑块,直观地预览和生成不同视角的图像。此外,数据集还可用于视频生成任务,通过为每一帧指定相机参数,生成具有连贯视角的视频序列。
背景与挑战
背景概述
PreciseCam数据集由西班牙萨拉戈萨大学和Adobe研究院的研究团队于2024年创建,旨在解决文本到图像生成模型中对相机视角控制的精确性问题。该数据集包含超过57,000张图像,每张图像均配有文本提示和真实相机参数(如俯仰角、滚动角、垂直视场角和镜头畸变参数)。通过引入这些参数,PreciseCam为生成模型提供了更精细的相机控制能力,从而扩展了生成图像的艺术表达潜力。该数据集的发布为计算机视觉和生成式AI领域的研究提供了新的工具,尤其是在需要精确控制相机视角的应用场景中,如摄影、电影制作和虚拟现实。
当前挑战
PreciseCam数据集面临的挑战主要集中在两个方面。首先,在领域问题方面,现有的文本到图像生成模型通常缺乏对相机视角的精确控制,导致生成的图像视角单一,难以满足艺术创作的需求。PreciseCam通过引入相机参数解决了这一问题,但如何将这些参数有效地整合到生成模型中仍是一个技术难点。其次,在数据集构建过程中,研究团队需要从360度全景图像中提取具有多样性的视角和场景,并确保相机参数的准确性和一致性。此外,生成与文本提示相匹配的图像内容,同时保持相机视角的精确控制,也对模型的训练和优化提出了更高的要求。
常用场景
经典使用场景
PreciseCam数据集在文本到图像生成领域中被广泛用于精确控制相机参数,如俯仰角(pitch)、滚动角(roll)、垂直视场角(vFoV)和镜头畸变(ξ)。通过结合文本提示和相机参数,该数据集能够生成具有特定视角和镜头效果的图像,极大地扩展了生成模型的表达能力。这一功能在艺术创作、电影制作和虚拟现实等领域具有重要应用价值。
解决学术问题
PreciseCam数据集解决了当前文本到图像生成模型在相机视角控制上的局限性。传统模型通常只能生成平行于地面的视角,缺乏对复杂视角和镜头效果的精确控制。通过引入相机参数,该数据集使得生成模型能够在保持内容多样性的同时,精确控制图像的视角和镜头效果,从而提升了生成图像的艺术表现力和实用性。这一突破为生成模型的研究提供了新的方向。
衍生相关工作
PreciseCam数据集的发布推动了多个相关领域的研究进展。基于该数据集,研究者们开发了多种改进的生成模型,如结合深度图、边缘图和姿态控制的ControlNet扩展模型。这些衍生工作进一步提升了生成模型的灵活性和控制能力,使得生成图像在复杂场景和多物体交互中的表现更加出色。此外,该数据集还为视频生成中的初始相机位置控制提供了新的思路。
以上内容由遇见数据集搜集并总结生成



