ABSTRACTEDIT
收藏arXiv2026-05-14 更新2026-05-16 收录
下载链接:
https://venturamor.github.io/EditorsChoice/
下载链接
链接失效反馈官方服务:
资源简介:
ABSTRACTEDIT是由谷歌研究院与以色列理工学院联合创建的首个专注于抽象图像编辑的基准测试数据集,旨在系统评估模型对抽象语义指令的遵循能力。该数据集包含470个经过人工验证的测试样本,覆盖物理、逻辑、情感及社会变迁四大核心领域,每个样本由上下文图像、抽象编辑指令及对应的显式指令构成,并通过自动化视觉语言模型(VLM)流程生成,确保提示的多样性与场景相关性。数据集主要应用于推动图像生成模型在抽象意图理解方面的研究,解决现有模型在平衡指令遵循与上下文保留时普遍存在的欠编辑或过编辑问题,为多模态交互的语义对齐提供关键评估工具。
ABSTRACTEDIT is the first benchmark dataset dedicated to abstract image editing, co-developed by Google Research and the Technion – Israel Institute of Technology. It is designed to systematically evaluate a model's capability to follow abstract semantic instructions. The dataset contains 470 manually validated test samples covering four core domains: physics, logic, emotion, and social change. Each sample comprises a context image, an abstract editing instruction, and its corresponding explicit instruction, and is generated through an automated vision-language model (VLM) pipeline to ensure prompt diversity and scene relevance. This dataset is primarily applied to promote research on abstract intention understanding for image generation models, addressing the prevalent under-editing or over-editing issues that existing models commonly encounter when balancing instruction adherence and context preservation, thus serving as a critical evaluation tool for semantic alignment in multimodal interactions.
提供机构:
以色列理工学院; 谷歌研究院
创建时间:
2026-05-14
原始信息汇总
数据集概述:AbstractEdit
数据集名称:AbstractEdit
论文标题:Editors Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis
发布机构:Technion - Israel Institute of Technology & Google-Research
发布页面:https://venturamor.github.io/EditorsChoice/
数据集定位
- 首个专注于抽象图像编辑的基准数据集,旨在评估模型根据抽象指令(如“改变情绪”)而非显式指令编辑图像的能力。
数据集构成
- 数据来源:从 OpenImages 数据集获取上下文图像,并结合人工类别示例与多样化角色(personas)进行扩充。
- 指令生成:利用大语言模型(LLM)通过少量示例与随机角色提示,为每张图像生成配对的抽象指令与显式指令。
- 编辑流程:对上下文图像分别应用抽象指令和显式指令,生成最终的编辑图像对。
数据集规模与领域
- 涵盖4个主要领域,细分为12个子类别,具体包括:
- 情感(Emotional)
- 逻辑(Logical)
- 物理(Physical)
- 社交(Social)
- 示例图像展示了不同模型在各类别上的编辑输出。
评估框架:Entity-Rubrics
- 核心思想:将抽象编辑指令分解为原子级的实体层面评估。
- 三个阶段:
- 实体检测:识别图像中相关实体。
- 实体排序:为每个实体分配预期变换类型(改变、可选、保留),并测量编辑后图像与该预期的对齐程度。
- 最终评分:汇总各实体得分得到全局排序和评分理由。
- 特点:以从红(错误)到绿(正确)的色阶在图像上可视化评估结果,并实现与人类判断的高度相关性。
数据集用途
- 评估模型在抽象指令下的意图遵循能力与原图保持能力之间的平衡。
- 可作为奖励模型、多模态交互中的用户意图理解工具,或在测试时反馈循环中定位具体编辑失败案例。
搜集汇总
数据集介绍

构建方式
ABSTRACTEDIT数据集的构建依托于一个全自动化的VLM驱动流水线,该流水线分为三个阶段。首先,在素材采集阶段,从Open Images v7数据集中精心挑选了1300张包含多个交互实体的复杂自然场景图像,并手动定义了涵盖物理、逻辑、情感和社交四大领域的细粒度类别体系。随后,在指令生成阶段,利用大型语言模型,通过融入随机采样的人物画像(如年龄、职业、性格等),为每张图像生成一对指令:一条表征高层语义的抽象指令,以及一条详细描绘具体视觉修改的显式指令。最后,在图像编辑阶段,将这两条指令分别作用于原始图像,合成最终的图像编辑样本对,从而构建出包含470个人工验证测试样本和4000个训练样本的数据集。
特点
ABSTRACTEDIT的核心特点在于其对图像编辑中抽象意图的精准聚焦和系统性评估。该数据集首次将抽象编辑界定为一种“一对多”的映射问题,要求模型在保留原始图像语境的前提下,自主推断并执行高层级、未明确指定的编辑意图,从而挑战模型超越简单的显式指令遵循能力。其独特性体现在指令的天然多样性上,通过引入随机的人物画像和类别示例,确保了生成的抽象指令在语言风格和创意方向上具备广泛的真实性与差异性。此外,数据集为每张上下文图像提供了配对的显式指令,使其成为分离和量化模型抽象推理能力的理想基线,为细粒度诊断模型在意图理解与视觉生成之间的能力鸿沟提供了关键支撑。
使用方法
ABSTRACTEDIT数据集专为评估和推动图像编辑模型对抽象意图的理解能力而设计。使用时,用户可将数据集中的上下文图像与对应的抽象指令作为输入,驱动待评测的图像编辑模型生成编辑结果,并利用官方提供的ENTITY-RUBRICS评估框架进行自动化的细粒度打分。该框架通过将图像分解为原子级的实体单元,逐一评估每个实体在抽象编辑中的预期变换与实际执行效果,最终生成一个综合的指令遵循分数和可解释的评估理由。此外,数据集中配对的显式指令可充当基准,用于隔离模型在抽象推理环节的失败,而提供的训练集(4000个样本)则可用于微调模型,以提升其对复杂、开放语义的响应能力。
背景与挑战
背景概述
ABSTRACTEDIT数据集由以色列理工学院与谷歌研究团队于2026年联合创建,旨在系统性地研究图像编辑中的抽象意图理解这一核心问题。现有基准大多聚焦于显式、具体的指令,而人类沟通天然充满抽象概念如“情绪”或“氛围”。该数据集正式定义了抽象图像编辑的范畴与分类,并提供了首个专门评估抽象编辑能力的基准,涵盖物理、逻辑、情感及社会四大领域共470个经人工验证的样本。通过评估11个前沿模型,该研究揭示了当前模型在处理此类高自由度指令时的根本性局限,对推动多模态交互从机械执行向自然沟通演进具有重要影响力。
当前挑战
该数据集面临的首要挑战源于抽象概念本身的主观性与多解性:同一抽象指令可对应无数种合理的视觉修改,导致模型需在遵循意图与保持原图完整性间艰难平衡,常陷入“欠编辑”(未捕捉隐含需求)或“过编辑”(破坏原始上下文)的两难境地。构建过程中,挑战在于设计自动化管线以生成既自然又多样且确保逻辑可验证的抽象及配对显式指令,同时需精确控制提示的抽象程度。此外,现有的全局评分指标无法反映多实体协调的复杂需求,亟需一种细粒度、可解释的评估方法以准确衡量模型对高层次意图的对齐能力。
常用场景
经典使用场景
在图像编辑领域,长久以来主流基准聚焦于遵循显式、字面的指令,却对抽象概念如“情绪”、“氛围”的编辑能力置若罔闻。ABSTRACTEDIT作为首个专为评估抽象图像编辑而设计的基准数据集,填补了这一空白。其经典使用场景在于,向评测模型提供一段高度概括、蕴含人类主观意图的抽象指令与一幅上下文图像,要求模型自主推断指令所隐含的编辑目标与视觉变换,从而完成从“一”到“多”的语义跨越。该数据集通过涵盖物理、逻辑、情感与社会四大领域的多样化真实场景,系统性地衡量模型在模糊意图引导下的图像编辑能力。
解决学术问题
ABSTRACTEDIT的诞生系统性地解决了图像编辑研究中长期悬而未决的学术难题:如何量化与评估模型对抽象人类意图的理解与执行能力。此前,学界对复杂指令的研究多局限于隐式引用或物理推理,这些方法本质上仍是一对一的映射,无法触及真正开放式的抽象编辑。该数据集的提出,首次将抽象图像编辑形式化为“识别”与“特异性”两个正交维度,并引入编辑自由度这一理论框架。它使研究者得以深入剖析模型在平衡意图跟随与内容保持时所面临的“欠编辑”与“过编辑”困境,揭示了高级LLM文本编码器与迭代推理机制在驱动抽象指令理解中的关键作用,从而为弥合刚性机器执行与自然人类沟通之间的鸿沟奠定了坚实的评测基础。
衍生相关工作
ABSTRACTEDIT的发布衍生了一系列具有深远影响的经典工作,其中最核心的当属ENTITY-RUBRICS评估框架。该框架将抽象编辑的系统性评估从粗糙的全局打分推向细粒度的实体级诊断,通过将图像中的每个实体视为原子单元,分别测定其预期变换与实际执行的对齐程度,从而提供高度可解释的评估报告。这一范式不仅启发了后续研究将类似方法应用于视频编辑、三维场景理解等更复杂模态的评估任务,还催生了将实体级反馈作为奖励信号用于偏好对齐、或通过“批判-修正”循环实现测试时缩放的新型生成管线。此外,该数据集促使学界重新审视图像生成模型中的文本编码器设计,推动了对先进LLM骨干与迭代思考机制的深入探索,并促进了“思考型”图像编辑模型(如Step1X-Think)的涌现。
以上内容由遇见数据集搜集并总结生成



