kamuicode-i2i-images

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/yumenojmd/kamuicode-i2i-images

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集是一个用于全面评估AI图像编辑模型性能的基准测试套件，包含34种测试，分为4个难度级别（低、中、高、最高），并比较了17种图像到图像（I2I）编辑模型和23种文本到图像（T2I）生成模型。数据集包含2,869张已生成的图像，涵盖了从基本颜色更改到复杂文档生成等多种任务。

创建时间：

2025-12-11

原始信息汇总

AI画像編集モデル総合ベンチマーク v5.3 数据集概述

数据集基本信息

数据集名称: AI画像編集モデル総合ベンチマーク v5.3
数据集地址: https://huggingface.co/datasets/yumenojmd/kamuicode-i2i-images
数据集状态: 全34测试已完成
生成图像总数: 2,869枚

数据集目的与范围

本数据集是一个用于全面评估AI图像编辑模型性能的基准测试套件。它对17种I2I（图像编辑）模型和23种T2I（文本到图像）模型进行比较评估。

测试结构与分类

测试共分为4个难度等级，总计34种测试。

难度等级定义

等级	难度	说明	测试数量
A	低	特征量不发生重大变化的转换（颜色更改、表情变化、文字重写等）	7
B	中	在保持与参考图像一致性的同时生成差异较大的图像（外绘、视角转换、设定资料等）	15
C	高	需要图像识别力加思考、想象力的任务（时间推理、注释理解）	7
D	最高	复合型文档生成（幻灯片、四格漫画、故事板、漫画）	5

目录结构概览

level_a_basic/: 低难度（7测试）
level_b_transform/: 中难度（15测试）
level_c_reasoning/: 高难度（7测试）
level_d_document/: 最高难度（5测试）

评估模型列表

I2I（图像编辑）模型 (17种)

包括 Nano Banana Pro Edit、Flux.2 Flex Edit、Qwen Image Edit Plus、Seedream V4.5 Edit、Flux.2 Pro Edit、Kling Image O1、Vidu Q2 Reference、Z Image Turbo、LongCat Image Edit、Seedream V4 Edit、GPT Image 1 Mini、Flux Krea LoRA、Flux Kontext Max、Nano Banana (Legacy)、Qwen Image Edit、Reve Edit、Reve Remix、ChronoEdit、WAN 2.5 Preview。

T2I（文本→图像）模型 (23种)

包括 Nano Banana Pro、Flux.2 Flex、Qwen Image、Seedream V4.5、Flux.2 Pro、Vidu Q2 Text、Seedream V4、Flux.1 Schnell、Dreamina V3.1、Ovis Image、Imagen 3、Imagen 4 Fast、Imagen 4 Ultra、Reve、Emu 3.5 Image、Z Image Turbo、LongCat Image、WAN v2.2、WAN 2.5 Preview、Hunyuan V3、Flux SRPO、Piflow、Bria Fibo。

关键文档

00_benchmark_rules.md: 全类别通用规则、方针、评估标准（测试开始前必读）。
01_model_master.yaml: 模型ID、MCP服务器名、文件命名规则。
02_folder_structure.yaml: 文件夹结构、文件命名规则。
03_yaml_format.yaml: _request_log.yaml 的格式规格。
各难度级别的测试详情文件（如 level_a_tests.md）。

测试执行与数据统计

画风变体: Level A-C 有5种，Level D 有1种。
需要人工介入的测试: 4项测试（Category C3）。
版本: 当前版本为 v5.3 (2025-12-14)，模型ID已规范化，I2I扩展至17种，T2I扩展至23种。

搜集汇总

数据集介绍

构建方式

在人工智能图像生成与编辑技术快速发展的背景下，kamuicode-i2i-images数据集作为一个综合性基准测试套件应运而生。其构建过程遵循严谨的体系化设计，将34种不同的图像编辑任务依据难度划分为A至D四个等级，覆盖从基础色彩调整到复杂文档生成的广泛场景。数据集的构建核心在于通过标准化的测试流程，系统性地收集了来自17种图像到图像（I2I）模型和23种文本到图像（T2I）模型在统一任务上的输出结果，最终形成了包含2,869张生成图像的基准集合，为模型性能的横向对比提供了坚实基础。

特点

该数据集最显著的特点在于其多层次、多维度的评估框架。它不仅依据任务复杂度设置了清晰的难度梯度，还引入了多种画风变体以检验模型的风格适应能力。数据集涵盖了颜色编辑、画幅扩展、视角转换、时序推理乃至漫画分镜生成等多样化任务，能够全面考察模型在细节保持、语义理解、逻辑推理和创造性生成等方面的综合性能。其结构化的目录组织和详尽的元数据记录，确保了评估过程的可重复性与结果的可追溯性。

使用方法

使用该数据集进行模型评估时，需遵循其预设的标准化操作流程。研究者首先需仔细阅读基准规则文档，明确各难度等级下具体测试任务的提示词与评价标准。评估始于使用指定的T2I模型生成基础图像，随后调用待评测的I2I模型执行编辑指令，并将输出结果按照严格的命名规范保存。整个过程要求同步记录详细的请求日志，最终通过对比不同模型在同一任务上的生成结果，实现对模型编辑能力客观、系统的量化分析与排名。

背景与挑战

背景概述

在人工智能生成内容技术迅猛发展的背景下，图像到图像编辑模型作为关键分支，其性能评估长期缺乏系统化基准。为应对这一研究空白，kamuicode-i2i-images数据集应运而生。该基准由相关研究团队于2025年构建，旨在通过一套涵盖34项测试、四个难度等级的综合性评估体系，对17种图像编辑模型和23种文生图模型进行横向比较。其核心研究问题聚焦于量化评估不同模型在色彩调整、场景转换、逻辑推理乃至复杂文档生成等多样化编辑任务上的能力与局限。该数据集的建立，为模型性能的标准化评测提供了重要工具，推动了图像编辑领域向更严谨、可复现的评估范式演进。

当前挑战

该数据集旨在解决图像到图像编辑领域模型性能评估标准化的核心挑战。具体而言，其面临的领域问题挑战包括：如何设计能够全面衡量模型在保持图像一致性、理解复杂语义指令、进行多步逻辑推理以及生成结构化文档等多维度能力的评测任务。在构建过程中，挑战同样显著：首先，需要设计一套具有清晰难度梯度、覆盖从基础操作到高级认知任务的测试分类体系；其次，需协调大量异构模型（总计40种）在同一基准下的测试执行与结果记录，确保流程的规范性与可比性；最后，处理高达2869张生成图像的数据管理与质量把控，亦是工程实践中的关键难点。

常用场景

经典使用场景

在人工智能图像生成与编辑领域，kamuicode-i2i-images数据集作为一套综合性基准测试套件，其经典使用场景在于系统性地评估图像到图像（I2I）与文本到图像（T2I）生成模型的性能。该数据集通过精心设计的34个测试案例，覆盖了从基础色彩调整到复杂文档生成的四级难度任务，为研究者提供了标准化的评估框架，用以衡量模型在风格迁移、内容理解、空间推理及多模态融合等方面的能力。

实际应用

在实际应用层面，kamuicode-i2i-images数据集为商业图像编辑工具、创意内容生成平台以及自动化设计软件的开发提供了关键的模型选型与性能验证依据。开发者可依据基准测试结果，筛选出在特定任务（如商品图换背景、角色表情编辑、多语言海报生成）上表现优异的模型进行集成。这直接助力于提升数字营销、娱乐媒体、电子商务等领域中AI驱动内容创作的效率、质量与可控性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在新型评估指标的提出、模型架构的针对性优化以及跨模态理解任务的拓展。例如，研究者可能借鉴其多难度层级设计，开发更细粒度的模型能力诊断工具；或基于其在“时间推理”、“场景转换”等任务上的表现，推动具备更强上下文感知与逻辑推理能力的下一代生成模型的研发。该数据集已成为激发图像编辑领域算法创新与基准方法演进的重要催化剂。

以上内容由遇见数据集搜集并总结生成