ContinuousEditControl
收藏arXiv2025-10-10 更新2025-10-11 收录
下载链接:
https://snapresearch.github.io/kontinuouskontext/
下载链接
链接失效反馈官方服务:
资源简介:
ContinuousEditControl数据集是一个由110,000张图像组成的合成数据集,用于训练Kontinuous Kontext模型。该数据集包含了图像、编辑指令、编辑强度和相应的目标编辑图像。数据集的生成过程包括使用Qwen LVLM生成编辑指令,应用Flux Kontext模型生成全强度编辑图像,然后使用Freemorph模型生成不同强度的中间编辑图像。数据集的创建旨在为指令驱动图像编辑提供连续的编辑强度控制,使得用户可以平滑地调整编辑程度。
The ContinuousEditControl dataset is a synthetic dataset composed of 110,000 images, intended for training the Kontinuous Kontext model. It includes images, editing instructions, editing strengths, and their corresponding target edited images. The dataset is generated through a three-stage pipeline: first, generating editing instructions using the Qwen LVLM; second, generating full-strength edited images with the Flux Kontext model; third, generating intermediate edited images with varying editing strengths via the Freemorph model. This dataset is developed to enable continuous editing strength control for instruction-driven image editing, allowing users to smoothly adjust the degree of image editing.
提供机构:
Snap Research, Tel Aviv University, IISc Bangalore
创建时间:
2025-10-10
搜集汇总
数据集介绍

构建方式
在指令驱动图像编辑领域,ContinuousEditControl数据集的构建采用多阶段合成策略。首先从Subject200K数据集中采样11万张多样化场景图像,通过Qwen LVLM生成涵盖风格化、属性修改等类别的编辑指令,再利用Flux Kontext模型生成完整强度编辑图像。随后采用Freemorph图像变形技术,在源图像与编辑图像间生成6个均匀分布的中间强度编辑样本,最终通过基于LPIPS距离的逆向质量检测和序列均匀性过滤机制,从初始11万样本中筛选出6.4万条高质量编辑轨迹。
特点
该数据集的核心特征在于其连续强度标注体系,每个编辑样本均配备标准化强度标量值,形成从无编辑到完整编辑的平滑过渡轨迹。数据涵盖全局编辑与局部编辑两大类别,包括风格转换、环境变化、材质替换等多样化操作,其编辑指令均通过视觉语言模型生成,确保语义丰富性。特别值得注意的是,数据集通过严格的过滤机制保证了编辑轨迹的视觉一致性和语义连贯性,为连续强度控制研究提供了可靠基准。
使用方法
数据集适用于训练连续强度控制的图像编辑模型,研究人员可将源图像、编辑指令和强度标量作为输入,目标编辑图像作为监督信号。在模型架构设计时,可通过轻量级投影网络将强度标量映射至调制参数空间,实现精细的编辑强度控制。评估时可采用三角形赤字指标衡量编辑轨迹平滑度,结合CLIP方向相似度评估指令跟随能力,为连续图像编辑模型的性能提供多维度量化标准。
背景与挑战
背景概述
随着大规模文本到图像生成模型的快速发展,基于指令的图像编辑技术已成为计算机视觉领域的重要研究方向。2025年,Snap Research与特拉维夫大学、班加罗尔印度科学研究所联合提出的ContinuousEditControl数据集,旨在解决指令驱动编辑中缺乏细粒度强度控制的核心问题。该数据集通过构建图像-编辑指令-强度标量-目标编辑的四元组样本,为连续强度调节的编辑模型提供训练基础,显著提升了图像编辑的可控性与自然语言交互的精确度。
当前挑战
该数据集面临的领域挑战在于突破传统指令编辑的二元限制,实现从风格化到几何形变等多类编辑操作的连续强度调控。构建过程中的主要困难包括合成数据时中间编辑图像的语义平滑性保障,需通过扩散模型插值与严格过滤来解决对象缺失、伪影及过渡突变等问题;同时,轻量级投影网络的训练需克服文本嵌入空间非平滑性导致的编辑跳跃,确保强度标量与指令语义的精准耦合。
常用场景
经典使用场景
在基于指令的图像编辑领域,ContinuousEditControl数据集通过引入连续强度控制机制,为研究者提供了精细调整编辑效果的能力。该数据集支持从风格转换到几何形变等多种操作,用户可通过滑动条实时观察图像从原始状态到完全编辑状态的平滑过渡轨迹。这种动态交互方式显著提升了编辑过程的直观性与可控性,成为探索连续编辑范式的标准实验平台。
解决学术问题
该数据集有效解决了指令驱动编辑中文本模态的粗粒度控制局限,突破了传统方法对离散编辑结果的依赖。通过构建编辑强度与语义空间的映射关系,实现了对属性强度、材质变化和几何形变的连续调控,为生成模型的精细控制提供了理论框架。其统一架构避免了传统方法需针对不同属性进行专门训练的冗余,推动了可控图像生成领域的范式革新。
衍生相关工作
基于该数据集提出的调制空间映射机制,后续研究衍生出多模态连续控制框架ConceptSliders与材质编辑系统MARBLE。这些工作通过扩展投影网络架构与优化训练策略,进一步提升了面部属性编辑与复杂材质控制的精度。近期研究更将连续控制理念融入视频编辑领域,实现了时序连贯的动态效果调整,形成了以强度控制为核心的技术生态。
以上内容由遇见数据集搜集并总结生成



