SmartPhotoCrafter多阶段训练数据集

Name: SmartPhotoCrafter多阶段训练数据集
Creator: vivo移动通信有限公司·BlueImage实验室
Published: 2026-04-21 23:38:49
License: 暂无描述

arXiv2026-04-21 更新2026-04-23 收录

下载链接：

https://github.com/vivoCameraResearch/SmartPhotoCrafter

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由vivo BlueImage实验室构建，专为SmartPhotoCrafter框架的多阶段训练流程设计，涵盖图像质量评估（IQA）、编辑建议和高质量摄影目标等多样化监督信号。数据集通过渐进式学习策略支持推理能力培养、可控生成和跨模块协作，包含基础预训练阶段的质量评分数据、编辑样本，以及强化学习阶段的语义-光度对齐优化数据。其核心应用在于实现无需人工指令的自动化摄影图像增强，解决非专业用户审美意图表达不明确的问题，同时提升模型对色调、色彩分布等细微光度量属性的敏感度。

This dataset was constructed by vivo BlueImage Lab, specifically designed for the multi-stage training pipeline of the SmartPhotoCrafter framework, and encompasses diverse supervisory signals including Image Quality Assessment (IQA), editing suggestions, and high-quality photography objectives. The dataset supports the cultivation of reasoning capabilities, controllable generation, and cross-module collaboration through a progressive learning strategy. It includes quality scoring data and editing samples for the basic pre-training stage, as well as semantic-photometric alignment optimization data for the reinforcement learning stage. Its core application lies in enabling automated photographic image enhancement without manual instructions, addressing the issue that non-professional users cannot clearly articulate their aesthetic intentions, while improving the model's sensitivity to subtle photometric attributes such as tone and color distribution.

提供机构：

vivo移动通信有限公司·BlueImage实验室

创建时间：

2026-04-21

原始信息汇总

SmartPhotoCrafter 数据集概述

数据集基本信息

数据集名称: SmartPhotoCrafter
核心定位: 用于自动摄影图像编辑的端到端框架，将传统编辑重新定义为闭环的推理到生成过程。
主要特点: 无需用户指令或参数，模型自主完成质量评估 → 推理 → 编辑的闭环。

核心功能与亮点

全自动编辑: 无需用户指令或参数。
双重能力:
- 图像恢复: 支持去噪、去模糊、低光增强。
- 图像润饰: 支持颜色、色调、对比度增强。
美学推理: 显式生成图像质量分析和编辑建议，提高可解释性。
高保真生成: 保留原始内容结构，同时提供具有高色调/颜色语义敏感度的逼真输出。
强化学习优化: 联合优化推理和生成模块，使编辑轨迹与人类美学偏好保持一致。

数据集内容与获取

预训练模型权重:
- SmartPhotoCrafter: 权重文件计划发布，当前链接暂未提供。
- 基础模型 (Qwen-Image-Edit-2509):
  - HuggingFace: https://huggingface.co/Qwen/Qwen-Image-Edit-2509
  - ModelScope: https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2509
推理代码: 已开源。
训练代码: 即将发布。

使用方式

环境要求: Python 3.10.0, CUDA 12.4, Torch 2.5。
推理脚本:
- 自动编辑: 仅需输入图像，运行 bash scripts/inference/automatic-edit.sh。
- 手动编辑: 需输入图像和提示词，运行 bash scripts/inference/manual-eidt.sh。
示例脚本参数: 包括模型路径、图像路径、输出文件夹等。

许可证

许可证类型: Creative Commons BY-NC-SA 4.0。
使用限制: 允许非商业用途的复制、重新分发、混合、转换和基于项目的构建，需注明出处并以相同许可证分发贡献。

致谢与引用

代码基础: 基于 Edit-R1 修改。
基础模型: 采用 Qwen-Image-Edit-2509。
引用信息: 引用格式待提供。

搜集汇总

数据集介绍

构建方式

在计算摄影学领域，构建高质量的训练数据是提升模型自动编辑能力的关键。SmartPhotoCrafter多阶段训练数据集采用分阶段构建策略，以支持从基础理解到协同优化的渐进式学习。第一阶段，数据集整合了图像质量评估（IQA）数据与编辑任务数据，利用大型视觉语言模型生成包含思维链推理、编辑建议和质量评分的结构化标注，为图像批评家模块提供细粒度监督。第二阶段，通过在线生成策略动态合成参考图像，将图像批评家的潜在推理表征与摄影艺术家模块的条件生成过程对齐，强化跨模块的语义一致性。第三阶段，则构建用于协同强化学习的样本，通过精心设计的多层次奖励机制，联合优化推理与生成模块，确保模型在自动增强过程中兼顾语义合规性、光度控制与感知一致性。

特点

该数据集的核心特征在于其阶段特异性与任务导向性，能够精准匹配智能图像编辑框架中不同模块的训练需求。数据集覆盖了广泛的视觉场景，包括图像质量评估、修复、润色及组合编辑任务，提供了多样化的监督信号。其标注不仅包含传统的质量分数，还融入了可解释的思维链推理与结构化编辑建议，增强了模型的可控性与透明度。此外，通过合成多强度、多属性的编辑变换对，数据集构建了一个丰富的连续编辑空间，支持模型学习从单一属性调整到复杂多属性联合变换的精细操作。这种设计使得数据集能够有效驱动模型实现从感知缺陷、推理改进策略到执行高质量图像增强的端到端能力。

使用方法

该数据集专为支持SmartPhotoCrafter框架的多阶段训练流程而设计。在基础预训练阶段，研究人员可分别使用图像批评家子集和摄影艺术家子集对两个模块进行监督微调，以建立基本的审美理解和编辑技能。在推理条件适应阶段，需利用统一理解与生成子集，将摄影艺术家的生成过程条件于图像批评家提取的潜在推理表征，实现表征层面的语义耦合。在协同推理到生成强化学习阶段，则应使用包含奖励设计标注的数据，在统一的强化学习框架下联合优化两个模块，通过多层次奖励信号引导模型探索能够提升图像吸引力的策略。使用过程中，需遵循各阶段对应的数据划分与预处理流程，以确保训练的有效性与模块间的协同进化。

背景与挑战

背景概述

在计算摄影与视觉智能领域，实现机器自主执行高质量图像编辑一直是核心挑战。传统编辑范式依赖用户提供明确的美学指令，这对非专业用户构成障碍，且现有模型缺乏对图像质量缺陷的理解与推理能力。为应对此问题，vivo BlueImage Lab的研究团队于2026年提出了SmartPhotoCrafter多阶段训练数据集，旨在支撑一个将图像编辑建模为紧密耦合的推理到生成过程的统一框架。该数据集通过分阶段构建，逐步培养模型的图像质量理解、可控生成与跨模块协作能力，最终实现无需显式人工指令的自动摄影增强。其创新性在于将多模态大语言模型的语义推理与高保真图像生成深度融合，推动了自动图像编辑向理解与执行一体化方向演进。

当前挑战

该数据集致力于解决的领域挑战在于自动摄影图像编辑，其核心是让机器能够像专业摄影师一样，自主诊断图像的美学与画质缺陷，并推理出针对性的优化策略，最终生成视觉吸引力强且保持内容真实性的增强结果。这要求模型同时具备高层次的语义理解能力和低层次的画质精细调控能力。在数据集构建过程中，主要面临三大挑战：其一，如何构建覆盖图像质量评估、修复与润色等多种任务的协同标注数据，以确保模型获得全面的美学理解；其二，如何设计分阶段的数据以支持从基础能力到推理引导生成，再到联合强化学习的渐进式训练，实现理解与生成模块的深度对齐；其三，如何合成高质量、多属性、多强度的图像编辑配对数据，以模拟真实世界中复杂且连续的画质调整，避免模型陷入离散的、工具化的编辑模式。

常用场景

经典使用场景

在计算摄影与视觉智能领域，SmartPhotoCrafter多阶段训练数据集为自动图像编辑模型提供了渐进式学习的结构化范例。该数据集通过分阶段构建，首先在基础预训练阶段整合图像质量评估与编辑任务，使模型建立美学理解与基本编辑能力；随后在推理引导适应阶段，利用图像批评模块的潜在表征指导摄影艺术家模块生成语义一致的编辑结果；最终在协同推理到生成强化学习阶段，通过多目标奖励机制联合优化两个模块，实现细粒度色调调整与高质量色彩分布的精准对齐。这种设计使得模型能够从简单指令跟随逐步演进为具备自主美学推理与精细化编辑能力的智能系统。

解决学术问题

该数据集有效应对了自动图像编辑中依赖显式用户指令的局限性，解决了非专业用户难以提供准确美学意图的普遍难题。传统编辑模型往往缺乏对图像质量缺陷的感知与改进策略的推理能力，而SmartPhotoCrafter数据集通过构建包含图像质量理解、编辑建议与质量评分的结构化标注，使模型能够自主诊断图像缺陷并推断针对性优化方向。其意义在于将图像编辑从条件生成任务转化为紧密耦合的推理到生成过程，推动了视觉理解与生成执行在表征层面的深度融合，为构建无需人工干预的智能摄影增强系统奠定了数据基础。

衍生相关工作

该数据集的构建理念与方法论催生了一系列围绕推理增强型图像编辑的经典研究工作。例如，基于多模态大语言模型的智能体系统如JarvisEvo与JarvisArt，借鉴了其规划与执行框架，进一步扩展了结构化视觉任务的处理能力。在图像质量评估领域，Q-Align与Q-Insight等研究受到其推理引导标注机制的启发，推动了视觉语言模型在质量评分与解释性分析方面的应用。同时，如RetouchIQ与PhotoArtAgent等智能体编辑方法，延续了其将视觉理解与工具调用相结合的思路，致力于实现更高语义保真度的图像润饰。这些衍生工作共同丰富了自动图像编辑的研究范式，促进了视觉智能向更自主、更可解释的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集