REDEdit-Bench

Hugging Face2026-03-11 更新2026-03-12 收录

下载链接：

https://huggingface.co/datasets/FireRedTeam/REDEdit-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

REDEdit-Bench（又称RedBench）是一个全面的基准测试数据集，旨在评估当前图像编辑模型的能力。该数据集包含1,542对双语（中文-英文）编辑指令，覆盖15个不同的任务类别，如对象添加、移除、替换、风格迁移等。数据集经过专家精心筛选，确保多样性和质量，每对数据包括图像源、双语编辑指令和任务类别。数据以JSONL格式组织，适用于图像生成和编辑任务的评估。数据集采用CC BY-NC-ND 4.0许可，仅限非商业学术研究使用。

创建时间：

2026-03-08

原始信息汇总

REDEdit-Bench 数据集概述

基本信息

数据集名称: RedBench (REDEdit-Bench)
发布方: FireRedTeam
许可证: Creative Commons Attribution–NonCommercial–NoDerivatives 4.0 (CC BY-NC-ND 4.0)
语言: 中文、英文
数据规模: 1,542 个双语（中文-英文）编辑对
技术报告: https://arxiv.org/abs/2602.13344
GitHub 代码库: https://github.com/FireRedTeam/FireRed-Image-Edit
数据集下载地址: https://huggingface.co/datasets/FireRedTeam/REDEdit-Bench/resolve/main/REDEdit_Bench.tar?download=true

数据集简介

RedBench 是一个综合性基准测试，旨在评估当前图像编辑模型的能力。其主要目标是构建更多样化的场景和更符合人类语言的编辑指令。数据集从互联网收集了超过 3,000 张图像，经过专家精心筛选，最终构建了涵盖 15 个类别 的 1,542 个双语编辑对。

关于数据规模的说明：论文中描述的原始基准测试包含 1,673 个图像对。但由于某些商业资产的严格再分发许可限制，公开发布版本已整理为 1,542 对，以确保完全遵守版权法，同时保持基准测试的多样性和质量。

核心特征

人类对齐的指令：多样化的场景和编辑指令，紧密模拟真实世界的人类使用情况。
双语支持：完整支持中文和英文编辑指令。
质量保证：从大量源图像收集中由专家精心策划。
多样化任务：涵盖 15 个不同的类别。

数据结构与任务类别

数据集采用 JSONL 格式组织。每个条目包含图像源、双语指令和具体的任务类别。

任务类别分布

类别	数量	描述
add	143	对象添加
adjust	156	属性调整
background	91	背景修改
beauty	79	美颜增强
color	99	颜色修改
compose	100	图像合成
extract	95	元素提取
lowlevel	47	低级处理
motion	78	运动添加
portrait	102	人像编辑
remove	147	对象移除
replace	140	对象替换
stylize	92	风格迁移
text	123	文本编辑
viewpoint	50	视角改变
all	1542	所有任务

数据示例

json {"id": "1", "source": "redbench/add/add-1.png", "a_to_b_instructions": "在图片中绿色植物上增加一只七星瓢虫", "a_to_b_instructions_eng": "Add a seven-spotted ladybug on the green plant in the picture", "task": "add"} {"id": "2", "source": "redbench/add/add-2.png", "a_to_b_instructions": "在咖啡杯里加一个白色心形拉花", "a_to_b_instructions_eng": "Add a white heart-shaped latte art in the coffee cup", "task": "add"}

使用流程

1. 图像生成

在使用模型进行评估之前，需要先使用提供的 JSONL 文件（包含元数据信息）和原始图像文件，通过编辑模型生成相应的编辑后图像。

依赖安装: bash pip install accelerate diffusers transformers pillow tqdm

下载数据集: 请下载 tar 文件并解压：https://huggingface.co/datasets/FireRedTeam/REDEdit_Bench/resolve/main/REDEdit_Bench.tar?download=true

推理脚本: 使用 redbench_infer.py 脚本，支持使用 Accelerate 进行多 GPU 分布式推理。

主要参数:

--model-path: 模型路径，默认为 FireRedTeam/FireRed-Image-Edit-1.0
--jsonl-path: 包含编辑指令的 JSONL 文件路径（必需）
--save-path: 保存生成图像的目录（必需）
--edit-task: 要处理的特定任务，默认为 all
--lang: 指令语言，cn 或 eng，默认为 cn

2. 图像编辑评估

使用 Gemini-3-Flash API 评估图像编辑过程。系统根据预定义的标准集（如指令遵循、图像编辑质量、细节保留）处理一组原始图像和编辑后的图像。

依赖安装: bash pip install google-generativeai pillow tqdm

环境设置: 设置 Gemini API 密钥环境变量： bash export GEMINI_API_KEY="your-gemini-api-key"

评估脚本: 使用 redbench_eval.py 脚本进行自动化评估。

主要参数:

--result_img_folder: 包含编辑后图像的目录（必需）
--edit_json: 包含编辑指令和元数据的 JSONL 文件路径（必需）
--prompts_json: 包含每个任务类别评估提示的 JSON 文件路径（必需）
--lang: 指令语言，cn 或 eng，默认为 cn

评估标准（按任务类别）

任务类别	评估指标
add, remove, replace, compose, extract	提示符合度、视觉无缝性、物理与细节保真度
adjust, color, lowlevel	提示符合度、视觉无缝性、物理与细节保真度
background, viewpoint	提示符合度、视觉无缝性、物理与细节保真度
beauty, portrait	提示符合度、视觉无缝性、物理与细节保真度
stylize	风格保真度、内容保留、渲染质量
motion	提示符合度、运动真实感、视觉无缝性
text	文本保真度、视觉一致性、背景保留

输出结果

评估脚本自动计算并保存结果：

result.json - 每张图像的详细评估。
score.json - 最终分数，包括每个类别的平均值和总体分数。

许可与引用

许可证: Creative Commons Attribution–NonCommercial–NoDerivatives 4.0 (CC BY-NC-ND 4.0)
允许用途: 仅限学术研究目的
禁止用途: 商业用途
数据来源: 所有图像均通过官方渠道合法购买和获取，以确保版权合规。

引用格式: bibtex @article{firered2026rededit, title={FireRed-Image-Edit-1.0 Technical Report}, author={Super Intelligence Team}, year={2026}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2602.13344}, }

搜集汇总

数据集介绍

构建方式

在图像编辑模型评估领域，构建一个能够全面反映模型真实能力的基准数据集至关重要。REDEdit-Bench的构建始于从互联网广泛收集超过3000张原始图像，随后经由专家团队进行精心筛选，以确保图像质量与多样性。基于筛选后的图像，研究团队设计了涵盖15个不同编辑类别的双语指令，最终形成了1542对高质量的图像编辑配对。这一构建过程严格遵循版权法规，对部分受商业许可限制的图像进行了审慎处理，从而在保证法律合规性的同时，维持了数据集的广泛代表性与评估效力。

使用方法

使用该数据集进行评估主要包含图像生成与自动化评分两个阶段。首先，用户需利用提供的JSONL元数据文件及原始图像，通过配套的推理脚本调用指定的图像编辑模型，批量生成编辑后的结果图像。该脚本支持多GPU分布式加速，并可针对特定任务类别进行定向处理。随后，通过集成Gemini-3-Flash API的评估脚本，系统将自动对比原始图像与生成图像，依据不同任务类别预设的细粒度标准进行多维度的自动化评分，最终输出包含详细推理过程、分项得分及综合评分的结构化结果，从而完成对模型编辑能力的系统化量化评估。

背景与挑战

背景概述

在计算机视觉领域，图像编辑模型的评估长期依赖于有限且同质化的基准，难以全面衡量模型在复杂、多样化真实场景下的生成能力。REDEdit-Bench（亦称RedBench）由FireRedTeam于2026年构建，旨在填补这一空白。该数据集精心设计了超过1,500组双语（中英文）图像编辑对，涵盖对象增删、风格迁移、视角变换等15个任务类别，其核心研究问题是推动图像编辑模型在人类语言对齐与多场景泛化能力方面的进步。通过专家级的人工筛选与标注，该数据集为学术界提供了更贴近实际应用需求的评估工具，对生成式人工智能与多媒体内容创作领域的发展具有显著的推动作用。

当前挑战

图像编辑领域面临的核心挑战在于模型需精准理解自然语言指令，并在复杂视觉场景中实现语义一致、细节保留且视觉逼真的编辑效果。REDEdit-Bench针对这一难题，通过构建多样化、人类对齐的编辑指令，系统评估模型在跨类别任务中的综合性能。在数据集构建过程中，研究团队遭遇了多重挑战：首先，需从海量网络图像中筛选出适合编辑且版权清晰的素材，并因严格的版权限制，最终公开版本不得不从原计划的1,673对缩减至1,542对，以保障法律合规性；其次，为覆盖15个差异显著的编辑类别，需设计兼具语言自然性与任务特异性的双语指令，确保评估的广度与深度；最后，建立可靠且自动化的评估流程，如集成Gemini-3-Flash API进行多维度质量评分，亦是一项技术难点。

常用场景

经典使用场景

在图像编辑模型的评估领域，REDEdit-Bench作为一项综合性基准测试，其经典使用场景集中于系统性地衡量模型在多样化编辑任务上的性能。该数据集通过涵盖对象增删、风格迁移、背景修改等15个类别，构建了与人类语言高度对齐的双语编辑指令，为研究者提供了一个标准化的测试平台。模型在此基准上的表现能够直观反映其理解复杂指令、生成视觉连贯结果的能力，成为推动图像编辑技术迭代的重要工具。

解决学术问题

该数据集有效解决了图像生成与编辑研究中长期存在的评估标准化难题。传统方法往往依赖主观的人工评判或局限于单一任务，而REDEdit-Bench通过专家精心设计的多样化场景和细粒度评估指标，为学术社区提供了可量化、可复现的评估体系。它使得研究者能够精准分析模型在指令遵循、视觉无缝性、细节保持等维度的优劣，从而推动对模型底层机理的深入理解，并引导技术向更可靠、更可控的方向发展。

实际应用

在实际应用层面，REDEdit-Bench为开发高性能的图像编辑工具提供了关键的验证依据。其涵盖的美颜增强、肖像编辑、物体替换等场景，直接对应了数字内容创作、电子商务、社交媒体修饰等产业需求。通过在该基准上进行测试与优化，技术团队能够确保其模型产品能够准确理解用户以自然语言表述的编辑意图，并输出高质量、无违和感的修改结果，从而提升用户体验并拓展商业化落地的可能性。

数据集最近研究