TextEdit

github2026-03-15 更新2026-03-07 收录

下载链接：

https://github.com/open-compass/TextEdit

下载链接

链接失效反馈

官方服务：

资源简介：

TextEdit是一个高质量、多场景的文本编辑基准数据集，旨在评估图像生成模型在细粒度文本编辑任务中的能力。它涵盖了多样化的真实世界和虚拟场景，包含18个子类别，总计2,148张高质量源图像和手动标注的编辑后真实图像。数据集结合了经典OCR、图像保真度指标和现代多模态LLM评估方法，全面评估模型在目标准确性、文本保留、场景完整性、局部真实性和视觉一致性等方面的表现。

TextEdit is a high-quality, multi-scenario benchmark dataset for text editing, designed to evaluate the fine-grained text editing capabilities of generative models. It covers diverse real and virtual scenarios, consists of 18 subcategories, and contains a total of 2,148 high-quality source images and manually annotated edited real images. This dataset aims to provide a standardized, realistic and scalable benchmark for text editing research.

创建时间：

2026-03-05

原始信息汇总

TextEdit 数据集概述

数据集基本信息

数据集名称: TextEdit
核心定位: 一个用于评估图像生成模型细粒度文本编辑能力的高质量、多场景基准
发布状态: 已发布（2026年3月6日）
数据地址: https://huggingface.co/datasets/opencompass/TextEdit
相关论文: 技术报告详情请参见 InternVL-U 技术报告附录

数据集构成与规模

总数据量: 2,148 对高质量源图像与人工标注的编辑后真实图像
场景分类: 覆盖真实世界和虚拟场景
子类别: 18 个子类别
数据组织:
- 虚拟场景 (类别 1.x.x): 合成/虚拟场景图像
- 真实场景 (类别 2.x): 真实世界场景图像
评估子集:
- 完整集: 包含所有样本
- 迷你集 (500): 从完整集中均匀采样的 500 个样本子集

评估目标与维度

核心任务: 评估图像生成与编辑模型的文本编辑能力
关键挑战:
- 精确的空间对齐
- 字体与风格一致性
- 背景保留
- 布局约束推理
评估协议: 结合经典OCR与图像保真度指标，以及现代多模态大语言模型评估的双轨协议
主要评估维度:
- 目标文本准确性
- 文本保留度
- 场景完整性
- 局部真实感
- 视觉连贯性

评估指标体系

经典指标

OCR Accuracy (OA): 目标文本在编辑区域是否正确渲染
OCR Precision (OP): 生成图像中文本内容（目标+背景）的精确率
OCR Recall (OR): 生成图像中文本内容（目标+背景）的召回率
OCR F1 (F1): OCR 精确率与召回率的调和平均数
Normalized Edit Distance (NED): 目标文本与生成文本之间 ROI 感知的归一化编辑距离
CLIPScore (CLIP): 基于 CLIP 的图像-文本对齐分数
Aesthetic Score (AES): 生成图像的预测美学质量分数

VLM 专家评估指标

Text Accuracy (TA): 目标文本的拼写正确性与完整性 (1–5分)
Text Preservation (TP): 非目标背景文本的保留程度 (1–5分)
Scene Integrity (SI): 非编辑背景区域的几何稳定性 (1–5分)
Local Realism (LR): 修复质量、边缘清晰度与无缝性 (1–5分)
Visual Coherence (VC): 风格匹配（字体、光照、阴影、纹理协调性）(1–5分)
Weighted Average (Avg): 所有五个维度的加权平均值（默认权重: 0.4 / 0.3 / 0.1 / 0.1 / 0.1）

已评估模型概览

评估涵盖了生成模型和统一模型，并在真实与虚拟场景上分别报告结果。

生成模型: Qwen-Image-Edit, GPT-Image-1.5, Nano Banana Pro
统一模型: Lumina-DiMOO, Ovis-U1, BAGEL, InternVL-U (作者模型)

数据与工具获取

图像数据下载: https://huggingface.co/collections/OpenGVLab/TextEdit
评估提示文件: 位于 eval_prompts/ 目录下，包含完整集和迷你集的 .jsonl 文件
评估代码: 已随基准发布，包含经典指标和 VLM 指标的两步评估流程脚本

搜集汇总

数据集介绍

构建方式

在图像生成与编辑领域，文本编辑作为一项核心能力，其评估需依赖高质量且多样化的数据集。TextEdit数据集的构建采用了系统化的方法，涵盖现实与虚拟两大场景，共包含18个子类别。数据集中精心收集了2,148张高质量源图像，并在此基础上进行了人工标注，为每张源图像生成了经过编辑的真实标注图像。这种构建方式确保了数据集的多样性与真实性，为评估模型在复杂场景下的文本编辑能力提供了坚实基础。

使用方法

使用TextEdit数据集进行模型评估遵循一套清晰的流程。研究者首先需从指定平台下载数据集，并按照规定的目录结构组织源图像、真实标注图像及评估提示文件。随后，将待评估模型在数据集上进行推理，生成编辑后的输出图像，并按类别整理输出结果。评估过程分为经典指标评估和基于视觉语言模型的评估两个并行轨道。经典指标评估通过运行提供的脚本，计算OCR准确性、图像文本对齐度及美学质量等七项指标。基于VLM的评估则利用Gemini API对编辑结果在五个细粒度维度上进行评分，并通过两步流水线聚合最终结果。该使用方法为文本编辑模型的性能比较提供了标准化、可复现的框架。

背景与挑战

背景概述

随着多模态生成模型的迅猛发展，图像文本编辑能力已成为评估模型性能的关键维度。TextEdit基准由Danni Yang、Sitao Chen和Changyao Tian等研究人员于2026年3月发布，旨在系统评估生成模型在细粒度文本编辑任务上的表现。该数据集涵盖真实与虚拟两大场景，包含18个子类别共计2148组高质量源图像及人工标注的编辑后真值图像，其核心研究问题聚焦于模型在文本渲染过程中对空间对齐、字体风格一致性、背景保持及布局约束推理等多重复杂要求的满足程度。通过融合传统OCR指标、图像保真度度量与现代基于多模态大模型的评估协议，TextEdit为文本编辑研究提供了标准化、现实且可扩展的评估框架，对推动图像生成与编辑领域的技术进步具有显著影响力。

当前挑战

文本编辑任务本身面临多重固有挑战：模型需在复杂视觉场景中实现目标文本的精确空间定位与字形生成，同时保持原有字体风格、光照阴影等视觉属性的高度一致，并确保非编辑区域的背景完整性不受破坏。这些要求对生成模型的几何理解、风格迁移与局部修复能力提出了严峻考验。在数据集构建过程中，研究团队需克服高质量多场景图像数据的采集与标注难题，包括跨场景的文本实例多样性覆盖、编辑指令的语义明确性定义，以及真值图像的手工精细化标注，以确保评估基准的可靠性与泛化性。此外，设计兼顾传统指标与新兴多模态评估方法的双轨评估体系，亦是一项涉及度量标准融合与结果可解释性的复杂工程挑战。

常用场景

经典使用场景

在图像生成与编辑领域，文本编辑是一项基础而复杂的任务，要求模型在保持图像背景与风格一致性的同时，精准地修改或添加文字内容。TextEdit数据集通过涵盖现实与虚拟两大场景，包含18个子类别共计2148张高质量源图像及其人工标注的编辑后真实图像，为评估多模态生成模型的细粒度文本编辑能力提供了标准化基准。该数据集最经典的使用场景在于系统性地评测模型在文本渲染、空间对齐、字体风格一致性以及布局约束推理等方面的综合性能，为研究者提供了一个全面、可扩展的评估平台。

解决学术问题

文本编辑任务在学术研究中长期面临缺乏统一、高质量评估基准的挑战，传统方法往往难以量化模型在字体保持、背景完整性以及视觉协调性等方面的表现。TextEdit数据集通过结合经典OCR指标、图像保真度度量以及基于多模态大模型的评估方法，从目标准确性、文本保留、场景完整性、局部真实感和视觉连贯性五个维度构建了双轨评估协议。这一框架有效解决了文本编辑研究中评估标准不统一、度量维度单一的问题，推动了该领域向更系统化、可复现的方向发展。

实际应用

在实际应用层面，高质量的文本编辑技术对于广告设计、影视后期、电子商务图像处理以及无障碍信息适配等领域具有重要价值。TextEdit数据集所涵盖的多场景图像，如街头标志、产品包装、屏幕界面等，紧密贴合现实世界的编辑需求。通过在该数据集上优化和验证的模型，能够更可靠地应用于自动化海报生成、多语言标识替换、历史文档修复等具体任务，提升生产效率和视觉质量，满足行业对精准、高效图像编辑工具日益增长的需求。

数据集最近研究