MonetGPT

Name: MonetGPT
Creator: Adobe Research, UK
Published: 2025-05-10 00:38:27
License: 暂无描述

arXiv2025-05-10 更新2025-05-13 收录

下载链接：

https://monetgpt.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

MonetGPT是一个图像操作感知的多模态大型语言模型（MLLM），用于提供图像修饰的自动建议。该模型通过训练解决专门设计的视觉谜题来获取图像处理操作知识，进而能够规划并提出图像修饰序列。为了训练，研究人员合成了一组推理数据集，通过对专家修饰的图片进行程序性操作，并在视觉调整的基础上对预训练的语言模型进行微调。该数据集旨在解决图像修饰任务中的挑战，包括如何选择和调整修饰操作。数据集的应用领域包括但不限于图像修饰、图像增强和图像编辑，旨在帮助用户更有效地修饰图像，同时保持图像的原始身份和细节。

MonetGPT is an image operation-aware multimodal large language model (MLLM) designed to provide automated suggestions for image retouching. This model acquires knowledge of image processing operations by training on specially designed visual puzzles, enabling it to plan and propose sequences of image retouching operations. For training purposes, researchers synthesized a set of reasoning datasets by performing procedural manipulations on expert-retouched images, and fine-tuned the pre-trained large language model based on visual adjustments. This dataset aims to address the challenges in image retouching tasks, including how to select and adjust retouching operations. The application scenarios of this dataset include but are not limited to image retouching, image enhancement, and image editing, with the goal of helping users perform image retouching more efficiently while preserving the original identity and details of the images.

提供机构：

Adobe Research, UK

创建时间：

2025-05-10

搜集汇总

数据集介绍

构建方式

MonetGPT数据集的构建过程体现了多模态大语言模型（MLLM）在图像处理领域的创新应用。研究团队通过设计三类视觉谜题（Puzzle A/B/C）系统性地培养模型对图像修饰操作的理解能力：Puzzle A通过单操作前后图像对比训练模型识别操作类型与参数；Puzzle B基于专家修饰图像的扰动变体建立模型对美学参数的感知；Puzzle C则通过分阶段（光照/色彩/局部调色）的编辑序列生成，构建端到端的修饰规划能力。数据集以PPR10K和Adobe5k中的专家修饰图像为基础，通过程序化扰动生成7k-13k组合成样本，并利用Gemini 2.0生成对应的操作推理文本，最终形成包含视觉输入与语义解释的配对训练数据。

特点

该数据集的核心特点在于其操作感知的渐进式学习框架。不同于传统配对数据集直接学习输入-输出映射，MonetGPT通过视觉谜题构建了操作-效果-推理的三元认知体系：1) 支持33种可解释的全局操作（如曝光/饱和度/色相调整），参数范围标准化为[-100,+100]的感知线性空间；2) 分阶段编辑策略保持非破坏性处理，兼容16位高分辨率图像；3) 生成的编辑序列附带自然语言解释（调整项-问题描述-解决方案三元组），兼具专业性与可解释性。特别值得注意的是，数据集通过合成扰动规避了对原始专家配对的依赖，实现了小样本条件下的操作泛化能力。

使用方法

使用该数据集需遵循分阶段推理流程：首先将原始图像输入经谜题训练的MLLM，模型通过链式推理生成三阶段编辑计划（光照/色彩平衡/选择性调色）。每个阶段输出包含JSON格式的操作参数与自然语言解释，用户可交互式修改计划并触发后续阶段的重规划。实际应用中，研究者可：1) 直接调用预训练模型实现自动图像增强；2) 通过添加风格标签（如'复古'/'鲜艳'）引导个性化修饰；3) 基于DoRA适配器对Qwen-VL-7B等基座模型进行微调。数据集配套的Python库提供模块化操作接口，支持将JSON计划转换为具体图像处理指令。

背景与挑战

背景概述

MonetGPT是由伦敦大学学院与Adobe研究院于2025年联合推出的多模态大语言模型数据集，旨在解决专业级图像润饰中的程序化编辑序列规划难题。该数据集通过视觉谜题训练策略，使模型具备对33种图像处理操作的语义理解能力，核心突破在于将传统需要专业知识的参数调整任务转化为可解释的自然语言推理过程。作为首个面向程序化图像编辑的MLLM训练框架，其创新性地采用三阶段谜题设计（单操作理解-美学评估-编辑序列生成），在PPR10K和Adobe5K等基准测试中显著提升了非破坏性编辑的准确性与用户可控性。

当前挑战

领域挑战主要体现在：1)图像润饰作为高度主观的任务，需平衡专家风格模仿与用户个性化需求间的矛盾；2)程序化操作库的有限性导致区域化编辑支持不足，无法处理需语义分割的复杂场景。构建挑战包含：1)视觉谜题设计需精确模拟专业修图师的认知过程，涉及光照、色彩饱和度等11类参数的感知量化；2)推理数据集合成需保持操作可逆性，在专家编辑图像基础上生成逾25k组扰动样本时面临参数空间组合爆炸问题；3)多阶段训练中模型易受单专家数据偏差影响，需通过风格提示词机制增强泛化能力。

常用场景

经典使用场景

MonetGPT数据集在图像后处理领域具有广泛的应用，特别是在专业级照片润色方面。该数据集通过多模态大语言模型（MLLM）分析原始照片，识别问题并提出调整建议，最终通过一系列预定义的操作实现图像优化。这种操作序列化的方法不仅适用于专业摄影师，也为普通用户提供了高质量的图像处理工具。

解决学术问题

MonetGPT数据集解决了图像处理中两个核心学术问题：一是如何通过有限的专家编辑数据训练模型，使其具备专业级的图像润色能力；二是如何通过视觉谜题训练MLLM，使其理解并应用图像处理操作。该数据集通过合成推理数据和分阶段的视觉谜题设计，显著提升了模型在图像润色任务中的表现，为图像处理领域的研究提供了新的思路和方法。

衍生相关工作

MonetGPT数据集衍生了一系列经典工作，包括基于强化学习的图像润色框架Exposure、生成式编辑工具MGIE和InstructPix2Pix等。这些工作进一步扩展了MonetGPT的应用范围，例如通过区域特定滤镜进行图像优化（RSFNet）或结合语义分割网络实现对象级编辑。这些衍生工作不仅在技术上有所创新，也为图像处理领域的发展提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集