TextEdit

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/opencompass/TextEdit

下载链接

链接失效反馈

官方服务：

资源简介：

TextEdit-Bench 是一个高质量、多场景的文本编辑基准数据集，旨在评估图像生成模型中的细粒度文本编辑能力。该数据集涵盖了现实世界和虚拟场景的18个子类别，包含2,148张高质量源图像及手动标注的编辑后真实图像。TextEdit-Bench 通过结合经典OCR、图像保真度指标和现代多模态LLM评估方法，全面评估模型在目标准确性、文本保留、场景完整性、局部真实性和视觉连贯性等方面的性能。数据集适用于图像生成和编辑模型的研究与评估，提供了一个标准化、现实且可扩展的基准平台。

创建时间：

2026-02-26

原始信息汇总

TextEdit-Bench 数据集概述

数据集基本信息

数据集名称: TextEdit-Bench
托管地址: https://huggingface.co/datasets/opencompass/TextEdit
许可证: MIT
任务类别: 图像到图像
标签: 计算机视觉、图像编辑、基准测试

数据集配置与结构

配置名称: default
数据文件: metadata.jsonl (训练集)
数据特征:
- original_image (图像): 原始图像
- gt_image (图像): 人工标注的编辑后真实图像
- id (int64): 样本ID
- category (string): 类别
- source_text (string): 源文本
- target_text (string): 目标文本
- prompt (string): 提示词
- gt_caption (string): 真实描述

数据集简介与目标

TextEdit是一个用于评估图像生成模型细粒度文本编辑能力的高质量、多场景基准测试。该基准测试旨在解决文本编辑任务对精确空间对齐、字体风格一致性、背景保留和布局约束推理的独特要求。它涵盖了多样化的真实世界和虚拟场景，包含18个子类别，总计2,148张高质量源图像及对应的人工标注编辑后真实图像。

数据集内容与规模

场景覆盖: 真实场景与虚拟场景
类别数量: 18个子类别
样本总量: 2,148个高质量样本
数据子集:
- 完整集: 包含所有样本
- 迷你集: 包含500个从完整集中均匀采样的样本

评估方法

采用双轨评估协议，结合经典指标和基于多模态大语言模型的评估。

经典指标评估

OCR准确性指标: OA (OCR Accuracy)、OP (OCR Precision)、OR (OCR Recall)、F1 (OCR F1)、NED (Normalized Edit Distance)
图像-文本对齐指标: CLIP (CLIPScore)
美学质量指标: AES (Aesthetic Score)

VLM-based指标评估

使用Gemini-3-Pro-Preview作为专家评判，从五个细粒度维度进行评分：

TA (Text Accuracy): 目标文本的拼写正确性和完整性 (1–5分)
TP (Text Preservation): 非目标背景文本的保留程度 (1–5分)
SI (Scene Integrity): 未编辑背景区域的几何稳定性 (1–5分)
LR (Local Realism): 修复质量、边缘清晰度和无缝性 (1–5分)
VC (Visual Coherence): 风格匹配（字体、光照、阴影、纹理协调性）(1–5分)
Avg (Weighted Average): 五个维度的加权平均值（默认权重：0.4 / 0.3 / 0.1 / 0.1 / 0.1）

数据获取与准备

图像下载地址: https://huggingface.co/collections/OpenGVLab/TextEdit
数据组织:
- data/目录下按类别组织：
  - 虚拟场景 (类别 1.x.x): 合成/虚拟场景图像
  - 真实场景 (类别 2.x): 真实世界场景图像
评估提示词:
- 位于eval_prompts/目录下，包含完整集和迷你集两个子集。

相关资源

GitHub仓库: https://github.com/open-compass/TextEdit
技术报告: 详见InternVL-U技术报告附录

搜集汇总

数据集介绍

构建方式

在图像生成与编辑领域，文本编辑任务因其对空间对齐、字体一致性与背景保持的严格要求而颇具挑战。TextEdit数据集的构建过程体现了对多场景覆盖与高质量标注的追求。该数据集精心收集了2148张高质量源图像，涵盖现实与虚拟两大场景，并细分为18个子类别。每张图像均配备了人工标注的编辑后真实图像，确保了标注的精确性与一致性。数据集的元数据以结构化格式组织，包含原始图像、目标图像、文本描述及类别信息，为模型评估提供了可靠的基础。

使用方法

使用TextEdit数据集进行模型评估遵循清晰的流程。首先，用户需从指定链接下载图像数据，并按照虚拟与现实场景的分类组织文件结构。随后，模型需根据提供的编辑提示生成编辑后的图像，输出需按类别目录规范存放。评估阶段包含经典指标与VLM指标两条路径：经典评估通过执行预置脚本，计算OCR相关指标、CLIP对齐分数及美学评分；VLM评估则依赖Gemini API，对编辑结果进行多维度人工评分模拟，并通过聚合脚本生成最终报告。用户可通过修改配置脚本中的路径与模型参数，灵活适配本地环境，实现高效、可复现的基准测试。

背景与挑战

背景概述

随着多模态生成模型的迅猛发展，图像文本编辑作为一项基础而关键的能力，其评估体系亟待完善。TextEdit基准由Danni Yang、Sitao Chen、Changyao Tian等研究人员于2026年3月发布，旨在系统评估生成模型在细粒度文本编辑任务上的性能。该数据集聚焦于解决图像生成模型中文本渲染与编辑的核心研究问题，涵盖真实与虚拟两大场景，包含18个子类别共计2148组高质量图像对。通过融合经典OCR指标、图像保真度评估以及基于多模态大模型的现代评测方法，TextEdit为衡量模型在空间对齐、字体风格一致性、背景保持及布局约束推理等方面的能力提供了标准化、现实且可扩展的基准，对推动图像编辑领域的技术进步具有重要影响力。

当前挑战

在图像文本编辑领域，模型需克服多重挑战：首先，文本编辑要求精确的空间对齐与几何稳定性，确保新文本在复杂背景中无缝嵌入；其次，维持字体、光照、阴影等视觉属性的连贯性，避免编辑区域与周围环境产生违和感；再者，需在修改目标文本的同时，完整保留图像中其他非目标文本及背景内容，这对模型的局部感知与全局理解能力提出了极高要求。在数据集构建层面，挑战同样显著：需收集涵盖多样现实与虚拟场景的高质量图像，并进行精准的文本标注与编辑真值制作；同时，设计一套全面、可靠的评估协议，兼顾文本准确性、图像保真度与视觉连贯性等多维度指标，以客观反映模型在复杂真实场景下的综合编辑能力。

常用场景

经典使用场景

在图像生成与编辑领域，文本编辑作为一项核心能力，其评估长期缺乏标准化基准。TextEdit数据集通过提供涵盖真实与虚拟场景的2148组高质量图像对，为多模态生成模型提供了精细化的文本编辑能力评估平台。该数据集最经典的使用场景在于系统性地评测模型在文本替换、修正与渲染任务中的表现，通过结合经典OCR指标与基于大语言模型的多维度评估，全面衡量模型在目标准确性、文本保留度、场景完整性等关键维度的性能，从而推动图像文本编辑技术的标准化发展。

解决学术问题

文本编辑任务面临空间对齐精确性、字体风格一致性、背景保持与布局约束推理等多重挑战，传统评估方法难以全面量化这些复杂属性。TextEdit数据集通过构建覆盖18个子类别的多场景基准，有效解决了图像文本编辑领域缺乏统一、细粒度评估标准的核心问题。其引入的双轨评估协议——结合传统图像保真度指标与现代多模态大模型评估——为学术界提供了可复现、可扩展的评估框架，显著提升了该领域研究结果的可比性与科学性，对推动生成式模型在结构化文本操控方面的理论进展具有奠基性意义。

实际应用

在实际应用层面，TextEdit数据集所针对的文本编辑能力是众多商业与创意工具的核心功能。其评估框架可直接服务于广告设计、电子商务图片修改、文档图像修复以及增强现实内容生成等场景。例如，在电商平台中，模型需要准确修改商品标签上的价格或描述文字，同时保持原始图像的背景、光照与纹理真实感。该数据集通过模拟此类真实需求，为开发能够处理复杂现实世界文本编辑任务的实用化模型提供了关键的训练与验证数据，加速了相关技术从实验室研究向产业应用的转化进程。

数据集最近研究