INTENT-Edit-Bench
收藏Hugging Face2026-05-14 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/HF2026Repo/INTENT-Edit-Bench
下载链接
链接失效反馈官方服务:
资源简介:
INTENT-Edit-Bench是一个用于指令跟随图像编辑的多模态基准数据集,特别强调对象级编辑规划。该数据集包含1,024个训练样本,每个样本由以下核心字段构成:一张输入图像(primary_image)、一条自然语言编辑指令(instruction)以及一个结构化的编辑计划(prepare_edit_plan),该计划以JSON字符串形式描述了编辑中涉及的必要/可选对象及其约束。此外,数据还包含与计划对齐的对象名称列表(prepare_object_list)、唯一示例标识符(full_id)、领域标签(domain)和高级分组范式(paradigm)。数据集涵盖八个具体领域:常识推理(CommonSense)、数据分析(DataAnalysis)、规则约束(RuleConstraints)、文化符号(CulturalSymbols)、对象动态(ObjectDynamics)、社会规范(SocialNorms)、时间演化(TemporalEvolution)和科学原理(ScientificPrinciples),这些领域进一步归属于两个高级范式:形式推理(Formal_Reasoning)和现实世界知识(Real-world_Knowledge)。数据以Parquet格式存储,其中primary_image字段以Hugging Face兼容的图像对象格式(包含JPG字节和相对路径元数据)编码。数据集旨在用于评估在对象级约束下的指令跟随图像编辑和规划能力,支持的任务包括:给定输入图像和指令,生成满足意图和约束的编辑后图像;以及给定相同输入,生成类似prepare_edit_plan的结构化编辑计划。数据集仅提供训练集,并附带了将Parquet文件还原为CSV文件和JPG图像目录树的实用脚本。
INTENT-Edit-Bench is a multimodal benchmark dataset for instruction-following image editing, with a particular emphasis on object-level editing planning. The dataset contains 1,024 training samples, each consisting of the following core fields: an input image (primary_image), a natural language editing instruction (instruction), and a structured editing plan (prepare_edit_plan) that describes the necessary/optional objects and their constraints in editing as a JSON string. Additionally, the data includes an object name list aligned with the plan (prepare_object_list), a unique sample identifier (full_id), domain labels (domain), and high-level grouping paradigms (paradigm). The dataset covers eight specific domains: CommonSense, DataAnalysis, RuleConstraints, CulturalSymbols, ObjectDynamics, SocialNorms, TemporalEvolution, and ScientificPrinciples, which are further categorized into two high-level paradigms: Formal_Reasoning and Real-world_Knowledge. The data is stored in Parquet format, with the primary_image field encoded in a Hugging Face-compatible image object format (including JPG bytes and relative path metadata). The dataset is designed to evaluate instruction-following image editing and planning capabilities under object-level constraints, supporting tasks such as: given an input image and instruction, generating an edited image that satisfies the intent and constraints; and given the same input, generating a structured editing plan similar to prepare_edit_plan. The dataset only provides a training set and includes utility scripts for restoring Parquet files into CSV files and a JPG image directory tree.
创建时间:
2026-05-07
原始信息汇总
INTENT-Edit-Bench 数据集概述
基本信息
- 数据集名称: INTENT-Edit-Bench
- 语言: 英文
- 许可证: CC BY 4.0
- 版本: 1.0
- 数据集大小: 1,024 个样本(仅训练集)
- 任务类型: 图像到图像 (image-to-image)
- Hugging Face 数据集地址: https://huggingface.co/datasets/HF2026Repo/INTENT-Edit-Bench
数据集简介
INTENT-Edit-Bench 是一个多模态基准测试数据集,专注于指令遵循的图像编辑任务,并包含对象级别的编辑计划。每个样本包含一张输入图像、一条编辑指令以及一个结构化的编辑计划,描述了强制/可选对象及其约束。
数据文件与格式
- 主数据文件:
Data/train/INTENT_Edit.parquet(Parquet 格式,1,024 行) - 扩展脚本:
expand_parquet.py,可将 Parquet 文件还原为 CSV + JPG 目录结构
扩展后的目录结构
INTENT-Edit-Bench/ ├── INTENT-Edit-Bench.csv └── Primary_Image/ ├── Formal_Reasoning/ │ ├── CommonSense/.jpg │ ├── DataAnalysis/.jpg │ ├── RuleConstraints/.jpg │ └── ScientificPrinciples/.jpg └── Real-world_Knowledge/ ├── CulturalSymbols/.jpg ├── ObjectDynamics/.jpg ├── SocialNorms/.jpg └── TemporalEvolution/.jpg
数据字段说明
| 字段名称 | 类型 | 描述 |
|---|---|---|
full_id |
字符串 | 唯一样本标识(如 CommonSense_0) |
domain |
字符串 | 领域标签(如 CommonSense, CulturalSymbols) |
paradigm |
字符串 | 更高层级分组(如 Formal_Reasoning, Real-world_Knowledge) |
instruction |
字符串 | 自然语言的编辑指令 |
prepare_edit_plan |
字符串(JSON) | 对象级别的编辑计划,包含 object_id, object_name, status(COMPULSORY/OPTIONAL), intention |
prepare_object_list |
字符串(JSON) | 与计划对齐的对象名称列表 |
primary_image |
图像 | 包含 JPG 字节和相对路径元数据的图像对象 |
数据类别分布
| 类别 | 样本数量 |
|---|---|
| SocialNorms | 125 |
| ObjectDynamics | 125 |
| TemporalEvolution | 113 |
| CulturalSymbols | 124 |
| CommonSense | 125 |
| DataAnalysis | 145 |
| RuleConstraints | 127 |
| ScientificPrinciples | 140 |
支持的任务
- 图像编辑 / 图像到图像生成: 给定输入图像和编辑指令,生成满足意图和约束的编辑后图像
- 编辑规划 / 结构化生成: 给定输入图像和指令,生成类似
prepare_edit_plan的编辑计划
快速开始
python from datasets import load_dataset
ds = load_dataset("HF2026Repo/INTENT-Edit-Bench", split="train") print(ds.features)
搜集汇总
数据集介绍

构建方式
INTENT-Edit-Bench是一个专为指令遵循型图像编辑任务设计的多模态基准数据集。该数据集包含1024个精心构建的样本,每个样本由一张原始图像(primary_image)、一条自然语言编辑指令(instruction)以及一个结构化编辑计划(prepare_edit_plan)组成。编辑计划以JSON格式详细描述了操作对象(如对象ID、名称)、约束状态(强制或可选)及编辑意图,构建过程覆盖了八个知识领域,包括常识推理、社会规范、文化符号、科学原理等,确保了样本的多样性和挑战性。数据以Parquet格式存储,图像以HF兼容的字节流嵌入,便于加载与扩展。
特点
该数据集的核心特点在于其细粒度的对象级编辑计划机制,每个样本不仅提供全局指令,还分解为对具体对象的操作要求,使模型评估更为精确和可解释。数据按两个范式(形式推理与现实世界知识)和八个领域组织,每个领域样本数量均衡(113至145个),覆盖了从文化符号到时间演进的多元场景。此外,数据集专门用于基准测试,强调模型在遵循约束、理解对象关系以及生成与计划一致的编辑结果方面的能力,为图像编辑和规划任务提供了标准化的评估框架。
使用方法
用户可通过Hugging Face Datasets库直接加载数据集,使用`load_dataset('HF2026Repo/INTENT-Edit-Bench', split='train')`命令即可获取所有样本。每个样本包含图像、指令、编辑计划及元数据,适用于两种主要任务:一是图像编辑生成,基于输入图像和指令输出符合意图的编辑图;二是编辑规划,要求模型输出类似`prepare_edit_plan`的结构化计划。此外,附带的`expand_parquet.py`脚本可将Parquet数据还原为CSV文件和JPEG图像目录,便于本地处理和可视化调试。
背景与挑战
背景概述
INTENT-Edit-Bench是一个多模态指令跟随图像编辑基准数据集,由HF2026Repo团队于2024年发布。该数据集聚焦于图像编辑中的意图理解与对象级编辑规划,共包含1024个样本,涵盖常识、数据分析和科学原理等八个领域,旨在评估模型在复杂语义约束下执行图像编辑任务的能力。作为首个引入对象级编辑计划(如必选与可选对象)的基准,INTENT-Edit-Bench填补了现有图像编辑数据集在细粒度意图建模方面的空白,为多模态生成模型的研究提供了新的评估视角,对推动指令跟随图像编辑技术的发展具有重要意义。
当前挑战
INTENT-Edit-Bench所解决的核心领域挑战在于指令跟随图像编辑中意图理解与约束执行的脱节问题——现有模型常忽略编辑指令中的隐含对象关系或逻辑限制。在构建过程中,团队面临多重挑战:首先,需要设计覆盖多样化语义场景的编辑指令,确保每个样本的修改目标可被对象级计划明确表达;其次,将自然语言指令解析为结构化编辑计划时,需处理对象之间的选填与强制关系,这对标注一致性提出极高要求;最后,1,024个样本的规模虽精炼但要求每个样本包含充分的领域特异性,以在有限数据中评估模型的泛化能力。
常用场景
经典使用场景
在图像编辑与多模态理解领域,INTENT-Edit-Bench被广泛用于评估模型对精细指令的遵循能力,尤其是面向对象级别的编辑任务。该基准涵盖了八大领域,包括常识推理、数据分析、科学原理等,每个样本均提供原始图像、自然语言编辑指令以及结构化的编辑计划。模型需根据指令进行图像编辑,同时确保对必备与可选对象的正确操作。这一经典使用场景不仅考验多模态模型的理解与生成能力,更聚焦于其对复杂约束条件的深度解析与规划执行。
解决学术问题
该数据集的核心学术贡献在于解决了当前多模态模型在复杂指令图像编辑中缺乏系统性评估的问题。现有基准多聚焦于简单属性修改或物体替换,而INTENT-Edit-Bench引入了对象级编辑计划,要求模型进行推理规划并满足多层次约束。它有效填补了指令跟随图像编辑中结构化规划能力评估的空白,为学界提供了一个能区分模型在实际世界中常识、规则与动态变化理解上的精细指标,推动了更贴近现实需求的视觉语言模型研究。
衍生相关工作
基于INTENT-Edit-Bench,研究者已衍生出多个经典的基准测试与模型改进工作。例如,有学者借鉴其对象级编辑计划结构,提出了更细粒度的编辑评价指标;另有工作将该基准与扩散模型微调策略结合,提升了指令跟随的精准度。此外,该数据集催生了面向规划阶段的可解释编辑模型,以及跨语言指令编辑的多任务学习框架。这些衍生工作共同构建了一个从评估到改进的完整研究链条,加速了可信、可控图像编辑技术的发展。
以上内容由遇见数据集搜集并总结生成



