IV-Edit

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/TainU/IV-Edit

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含**IV-Edit（指令-视觉编辑）**基准和用于**RePlan**框架的训练数据。该数据集旨在解决基于指令的图像编辑中的**指令-视觉复杂性（IV-Complexity）**挑战，其中复杂的指令与杂乱或模糊的视觉场景交互。现有数据集通常以显著对象和直接命令为特征，而IV-Edit则强调需要细粒度视觉理解、复杂推理和精确区域控制的杂乱场景和指令。数据集分为三个部分：`test`（官方IV-Edit基准，包含约800个手动验证的指令-图像对，专注于多样化和复杂的场景）、`train`（用于微调RePlan VLM规划器的训练数据）和`dev`（用于模型开发和超参数调整的验证集）。这些样本源自开源数据集（如COCO、LISA和TextAtlas），并经过筛选以满足IV-Complexity标准。数据集包括图像、指令和相应的结构化区域规划数据。

创建时间：

2025-12-06

原始信息汇总

IV-Edit 数据集概述

数据集基本信息

数据集名称：IV-Edit (Instruction-Visual Editing) Benchmark & RePlan Training Data
发布者/组织：TainU
托管地址：https://huggingface.co/datasets/TainU/IV-Edit
相关论文：RePlan: Reasoning-Guided Region Planning for Complex Instruction-Based Image Editing (https://arxiv.org/abs/2512.16864)
项目页面：https://replan-iv-edit.github.io/
代码仓库：https://github.com/dvlab-research/RePlan
关联模型：https://huggingface.co/TainU/RePlan-Qwen2.5-VL-7B

数据集简介

该数据集包含 IV-Edit 基准测试 和用于 RePlan 框架 的训练数据。其设计目标是解决基于指令的图像编辑中的 指令-视觉复杂性 挑战，即复杂指令与杂乱或模糊视觉场景的交互问题。

与现有数据集通常包含显著对象和直接指令不同，IV-Edit 强调需要细粒度视觉理解、复杂推理和精确区域级控制的杂乱场景和指令。

数据集结构

数据特征

image：图像
prompt：字符串
answer：字符串
extra_info：字符串
image_id：整型

数据划分

train 训练集
- 样本数量：1043
- 数据大小：约 544.99 MB
- 用途：用于微调 RePlan VLM 规划器
dev 验证集
- 样本数量：116
- 数据大小：约 59.84 MB
- 用途：用于模型开发和超参数调优
test 测试集（IV-Edit 基准测试）
- 样本数量：804
- 数据大小：约 412.27 MB
- 用途：官方评估基准，包含约 800 个经过人工验证的指令-图像对

整体统计

下载大小：约 1011.9 MB
数据集总大小：约 1017.1 MB
语言：英语
任务类别：图像到图像

数据来源与构建

样本源自开源数据集（如 COCO、LISA 和 TextAtlas），并经过筛选以满足 IV-Complexity 标准。数据集包含图像、指令以及相应的结构化区域规划数据。

IV-Edit 基准测试特点

动机：现有基准测试通常图像前景对象清晰、指令直接，难以捕捉涉及杂乱布局、多个相似对象或隐式语义的现实编辑挑战。
关键特性：
- 复杂场景：图像被刻意选择为“非主体主导”，通常包含多个相似对象、文本丰富的环境或复杂背景。
- 丰富分类体系：基准测试围绕 7 种指代类型 和 16 种任务类型 构建。
- 推理密集型：指令通常需要多步推理，而非简单的对象映射。

使用方法

可以使用 Hugging Face datasets 库加载数据集： python from datasets import load_dataset dataset = load_dataset("your-org/iv-edit-benchmark") test_set = dataset["test"] train_set = dataset["train"] dev_set = dataset["dev"]

搜集汇总

数据集介绍

构建方式

在图像编辑领域，针对指令与视觉场景交互的复杂性，IV-Edit数据集的构建遵循了严谨的筛选与标注流程。该数据集从开源资源如COCO、LISA和TextAtlas中提取原始图像与指令对，并经过人工验证与过滤，确保样本符合指令-视觉复杂性标准。构建过程特别注重场景的杂乱性与指令的细粒度要求，最终形成了包含训练集、验证集与测试集的结构化数据，其中测试集作为基准评估集，包含约800个经过手动校验的复杂样本，以支撑对模型推理能力的深入考察。

特点

IV-Edit数据集的核心特点在于其专注于指令-视觉复杂性，突破了传统数据集中主体突出、指令直接的局限。该数据集精心选取了非主体主导的杂乱场景，图像常包含多个相似物体、文本密集环境或复杂背景，从而模拟真实世界中的编辑挑战。此外，数据集通过丰富的分类体系，涵盖了七种指代类型与十六种任务类型，如空间推理、知识关联与属性修改等，使得指令往往需要多步推理而非简单映射，为评估模型在复杂情境下的理解与执行能力提供了全面基准。

使用方法

利用IV-Edit数据集，研究者可借助Hugging Face的datasets库便捷加载，分别访问训练、验证与测试分割以进行模型开发与评估。测试集作为官方基准，专门用于衡量模型在复杂指令与视觉场景下的编辑性能；训练集则可用于微调如RePlan框架中的视觉语言模型规划器，提升其区域对齐的推理能力；验证集支持超参数调优与开发验证。通过分析样本中的图像、指令及结构化区域规划数据，用户能够深入探究模型在细粒度编辑任务中的表现，推动指令引导图像编辑技术的进步。

背景与挑战

背景概述

在指令引导的图像编辑领域，随着生成式人工智能技术的迅猛发展，对模型处理复杂视觉场景与多步骤自然语言指令的能力提出了更高要求。IV-Edit数据集由相关研究团队于2024年构建并发布，其核心研究问题聚焦于“指令-视觉复杂性”，旨在解决现有基准普遍存在的场景简单化与指令直接化局限。该数据集通过精心设计包含视觉杂乱、对象相似及语义隐晦的图像，并配以需要细粒度推理的编辑指令，为评估和推动复杂情境下的图像编辑模型提供了关键基准，显著提升了该领域对现实世界应用挑战的建模能力。

当前挑战

IV-Edit数据集所针对的核心领域挑战在于复杂指令引导的图像编辑，即模型需在视觉信息密集且模糊的场景中，精准理解并执行涉及多对象关系、隐含语义及知识推理的编辑任务，避免产生编辑溢出或目标误识别。在数据集构建过程中，主要挑战体现在如何从开源资源中筛选并构建符合“非主体主导”标准的复杂场景图像，以及如何设计一套系统化的、涵盖空间关系、知识关联等多种指代类型和多样化任务类型的指令标注体系，以确保基准的多样性与评估深度。

常用场景

经典使用场景

在图像编辑领域，IV-Edit数据集作为首个专注于指令-视觉复杂性的基准测试，其经典应用场景在于评估和训练模型处理复杂视觉场景与精细指令的能力。该数据集通过精心设计的杂乱背景、多相似物体及文本丰富环境，模拟真实世界中的编辑挑战，为模型提供了需要深度视觉理解与推理的任务环境，例如在拥挤场景中依据空间或知识指代进行精确区域编辑。

衍生相关工作

围绕IV-Edit数据集，衍生出了一系列经典研究工作，其中最具代表性的是RePlan框架。该框架提出了一种推理引导的区域规划方法，通过训练视觉语言模型作为区域对齐规划器，将复杂指令分解为边界框与提示的精确指导，并结合无需训练的注意力区域注入机制，实现了在单次生成中完成多区域精确编辑。此外，该数据集也促进了针对复杂指代理解、多模态推理及扩散模型可控生成等相关技术的探索与改进。

数据集最近研究