PreciseCam Dataset

github2025-04-30 更新2025-05-01 收录

下载链接：

https://github.com/edurnebernal/PreciseCam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过57,000张图像，以及它们的文本提示和真实相机参数，用于实现文本到图像生成中的精确相机控制。

This dataset contains over 57,000 images, along with their corresponding text prompts and real camera parameters, intended for precise camera control in text-to-image generation.

创建时间：

2025-04-29

原始信息汇总

PreciseCam数据集概述

基本信息

数据集名称: PreciseCam
研究领域: 计算机视觉、文本到图像生成
发布会议: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2025
论文链接: https://arxiv.org/abs/2501.12910
项目主页: https://graphics.unizar.es/projects/PreciseCam2024/

数据集内容

数据规模: 超过57,000张图像
数据类型: 图像及其对应的文本提示和真实相机参数
数据用途: 用于精确控制文本到图像生成中的相机参数

模型访问

模型名称: edurnebb/PreciseCam
模型平台: Hugging Face
模型链接: https://huggingface.co/edurnebb/PreciseCam
注意事项: 公开模型与论文中使用的模型有所不同，结果可能有所差异，但整体行为保持一致

安装与运行

环境配置: bash conda create -n precisecam --yes conda activate precisecam bash environment_setup.sh
依赖库: 定制化的Diffusers库
- 库链接: https://github.com/edurnebernal/diffusers-adapted

演示功能

演示工具: Gradio
运行命令: bash python demo.py
功能描述:
- 设置相机参数（Roll, Pitch, Vertical FOV, ξ）
- 生成透视场（PF-US）
- 输入文本提示生成最终图像
测试环境: NVIDIA GeForce RTX 4070 Ti SUPER (16 GB)

引用格式

PreciseCam: bibtex @article{bernal2025precisecam, title={PreciseCam: Precise Camera Control for Text-to-Image Generation}, author={Bernal-Berdun, Edurne and Serrano, Ana and Masia, Belen and Gadelha, Matheus and Hold-Geoffroy, Yannick and Sun, Xin and Gutierrez, Diego}, journal={arXiv preprint arXiv:2501.12910}, year={2025} }
Diffusers库: bibtex @misc{von-platen-etal-2022-diffusers, author = {Patrick von Platen and Suraj Patil and Anton Lozhkov and Pedro Cuenca and Nathan Lambert and Kashif Rasul and Mishig Davaadorj and Dhruv Nair and Sayak Paul and William Berman and Yiyi Xu and Steven Liu and Thomas Wolf}, title = {Diffusers: State-of-the-art diffusion models}, year = {2022}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/huggingface/diffusers}} }

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成式人工智能的交叉领域，PreciseCam数据集通过系统性采集57,000余张图像构建而成，每张图像均配有精确的文本描述及四维相机参数真值（包括外参Roll/Pitch和内参FOV/ξ）。该数据集摒弃了传统三维重建依赖的多视角数据，采用参数化相机控制框架，通过自动化流程同步记录图像生成过程中的几何属性与语义提示，为文本到图像生成任务建立了严格的相机-内容对应关系。

特点

该数据集的核心价值在于其参数化相机控制体系，通过外参（旋转角度）与内参（视场角、畸变系数）的精确标注，突破了传统文本到图像生成中视角控制的模糊性。数据覆盖摄影与艺术创作双领域，包含复杂光影场景和风格化表达，其参数标注精度达到0.1度级，配合Stable Diffusion XL的兼容性设计，为可控图像生成提供了标准化基准。独特的ξ畸变参数标注进一步扩展了镜头语言的可控维度。

使用方法

研究者可通过Hugging Face平台加载定制化的Diffusers库分支，利用Gradio交互界面实时调节相机参数生成图像。典型工作流包含三阶段：滑动控件设置相机几何参数，计算生成透视场（PF-US），最后结合文本提示合成目标图像。该框架支持端到端训练微调，用户可基于提供的SDXL兼容模型，通过修改camera_controlnet模块实现自定义视角控制。实验环境推荐配置16GB显存的NVIDIA显卡以确保生成效率。

背景与挑战

背景概述

PreciseCam数据集由西班牙萨拉戈萨大学与Adobe研究院联合团队于2025年推出，旨在解决文本到图像生成领域中相机参数精确控制的瓶颈问题。该数据集包含超过57,000张图像及其对应的文本提示与真实相机参数，突破了传统方法依赖预定义镜头或三维几何数据的局限。研究团队创新性地采用四项基础相机参数（滚动角、俯仰角、垂直视场角及畸变系数），为生成摄影级和艺术化图像提供了标准化控制框架，相关成果发表于计算机视觉顶会CVPR，为生成式AI的几何可控性研究开辟了新方向。

当前挑战

在领域问题层面，文本到图像生成长期面临相机视角参数与语义对齐的挑战，现有模型难以通过自然语言描述准确表达镜头光学特性与空间透视关系。构建过程中，研究团队需克服多模态数据对齐的复杂性：既要确保文本提示与图像内容的语义一致性，又需精确标注每张图像的相机内外参数；同时，为适应不同艺术风格的光学畸变特征，数据集需涵盖从写实摄影到抽象表现的广谱视觉表达，这对参数化建模与数据清洗提出了极高要求。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，PreciseCam数据集通过提供超过57,000张带有精确相机参数标注的图像，为文本到图像生成任务中的相机视角控制设立了新基准。该数据集最经典的使用场景在于训练和评估能够精确控制相机外参（如滚转、俯仰角）和内参（如视场角、畸变参数）的生成模型，使得生成图像在构图和透视关系上更符合专业摄影的审美标准。

衍生相关工作

基于该数据集衍生的经典工作包括三维感知扩散模型的改进研究，如NeRF与潜在扩散模型的联合训练框架。多项CVPR论文引用其相机参数标注体系改进视角敏感的文本对齐方法，Adobe研究院后续提出的动态视角插值技术也直接受其参数化控制思想的启发。

数据集最近研究