TextEditBench

github2025-12-19 更新2025-12-20 收录

下载链接：

https://github.com/CSU-JPG/TextEditBench

下载链接

链接失效反馈

官方服务：

资源简介：

TextEditBench是一个专注于图像中文本编辑的基准测试数据集，涵盖14个主题、6种任务类型和1,196个标注实例。它强调需要理解物理合理性、语言意义和跨模态依赖的推理密集型场景。数据集通过严格的人工-AI-人工验证流程构建，包含手动制作和网络来源的实例，平衡了多样性和标注保真度。

TextEditBench is a benchmark dataset focused on text editing in images, covering 14 topics, 6 task types, and 1,196 annotated instances. It emphasizes reasoning-intensive scenarios that require comprehension of physical plausibility, linguistic meaning, and cross-modal dependencies. Constructed via a rigorous human-AI-human validation workflow, the dataset includes both manually created and web-sourced instances, balancing diversity and annotation fidelity.

创建时间：

2025-11-27

原始信息汇总

TextEditBench 数据集概述

数据集简介

TextEditBench 是一个用于评估超越单纯渲染的、具备推理感知能力的文本编辑任务的综合性基准。该数据集明确聚焦于涵盖14个主题和6种任务类型的以文本为中心的区域，强调需要模型理解物理合理性、语言意义和跨模态依赖性的推理密集型场景。

核心特征

推理中心化：引入了语义期望评估维度。
场景多样化：覆盖14个主题和6种任务类型。
评估全面化：
- 轨道1（像素级）：包含SSIM、PSNR、LPIPS、MSE指标。
- 轨道2（语义级）：基于GPT-4o，评估指令遵循、文本准确性、视觉一致性、布局保持和语义期望。

数据集概览

TextEditBench 包含1,196个高质量实例，通过严格的人-人工智能-人验证流程构建。数据集结合了手动制作（58%） 和网络来源实例（42%），以平衡多样性和标注保真度。

数据构成

14个多样化主题：广泛覆盖日常视觉场景，包括专业文档、数字界面、标牌、菜单和包装等。
6种原子操作：系统化的编辑任务，旨在测试特定能力：删除、插入、更改、重定位、缩放和属性转移。
分层难度：每个实例根据10个难度属性进行评分（0-20分），并归类为简单、中等和困难等级，支持对模型鲁棒性进行细粒度分析。

数据获取与结构

数据集可通过 Hugging Face 获取：https://huggingface.co/datasets/MATH-finding/TextEditBench。

文件结构示例

data/ ├── canva/ │ └── Art_Creative_Expression/ │ ├── 001/ │ │ ├── 1.jpg │ │ ├── 1_mask.jpg │ │ ├── Art_Creative_Expression_001.json │ │ ├── text_delete_1.jpg │ │ └── text_delete_1_mask.jpg │ └── ... └── real/ ├── Art_Creative_Expression/ │ ├── 001/ │ │ ├── 1.jpg │ │ ├── 1_mask.jpg │ │ ├── Art_Creative_Expression_001.json │ │ └── text_delete_1_mask.jpg │ └── ... └── ...

评估方法

轨道1（像素级评估）：使用提供的脚本计算掩码区域的SSIM、PSNR、LPIPS、MSE。
轨道2（语义级评估）：使用GPT-4o评估指令遵循、文本准确性、视觉一致性、布局保持和语义期望。

引用信息

如果使用本工作或数据集，请引用： bibtex @misc{gui2025texteditbenchevaluatingreasoningawaretext, title={TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering}, author={Rui Gui and Yang Wan and Haochen Han and Dongxing Mao and Fangming Liu and Min Li and Alex Jinpeng Wang}, year={2025}, eprint={2512.16270}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.16270}, }

联系方式

如有问题，可通过邮件联系：8212231014@csu.edu.cn。

搜集汇总

数据集介绍

构建方式

在视觉文本编辑领域，构建高质量评估基准是推动模型发展的关键。TextEditBench数据集通过严谨的“人工-人工智能-人工”验证流程精心构建，确保了数据的高保真度与多样性。该数据集包含1,196个高质量实例，其中58%通过手动制作生成，42%来源于网络采集，这种混合策略有效平衡了场景覆盖的广度与标注的精确性。数据涵盖14个日常视觉主题与6种原子编辑操作，并依据10个难度属性进行分层评分，形成了易于、中等、困难三级难度体系，为模型鲁棒性的细粒度分析奠定了坚实基础。

使用方法

为便于研究者使用该基准进行评估，数据集提供了清晰的使用路径。用户需首先配置Python环境并安装依赖，随后从Hugging Face平台下载并解压数据集文件。评估过程分为两个并行轨道：第一轨道通过执行特定脚本计算掩码区域的SSIM、PSNR、LPIPS和MSE等像素级指标；第二轨道则利用GPT-4o大语言模型，对指令遵循、文本准确性、视觉一致性、布局保持及语义期望等语义层面指标进行自动化评估。用户只需按照指定格式组织模型输出图像，运行相应评估脚本即可获得综合性能报告，实现了评估流程的高度可复现性与可扩展性。

背景与挑战

背景概述

在计算机视觉与文档图像分析领域，文本编辑任务长期聚焦于低层次的像素渲染与版面还原，而缺乏对深层语义推理能力的系统评估。TextEditBench 数据集于2025年由相关研究团队创建，旨在构建一个超越表面渲染、专注于推理感知的文本编辑评估基准。该数据集的核心研究问题是推动模型在文本编辑中理解物理合理性、语言意义及跨模态依赖关系，从而应对真实场景中复杂的语义编辑需求。通过涵盖14个主题与6种原子操作，该数据集为多模态大语言模型与图像编辑模型提供了严谨的评估框架，对推动智能文档处理与生成式人工智能的发展具有显著影响力。

当前挑战

TextEditBench 致力于解决的领域挑战在于，现有文本编辑模型往往过于关注视觉保真度，而在需要深层逻辑推理的编辑任务中表现不足，例如在保持语义连贯性与上下文一致性的同时进行文本修改。构建该数据集的过程亦面临多重挑战：一是需要设计涵盖广泛日常场景的多样化实例，确保数据在主题与任务类型上的平衡；二是建立一套兼顾像素级客观指标与语义级评估的双轨评测体系，特别是引入创新的语义期望维度以量化模型对复杂推理链的把握能力；三是通过人工-人工智能-人工的验证流程保障数据的高质量与标注可靠性，这要求极高的协调成本与专业判断。

常用场景

经典使用场景

在视觉文本编辑领域，TextEditBench作为一项综合性基准测试，其经典使用场景聚焦于评估模型在复杂推理任务中的文本编辑能力。该数据集通过涵盖14个日常视觉主题和6种原子操作，如删除、插入和属性转换，构建了多样化的编辑语境。研究者通常利用其双轨评估框架，既检验像素级的渲染保真度，又通过大语言模型驱动的语义指标，深入分析模型在保持语义一致性与上下文连贯性方面的表现，从而系统衡量模型超越表面渲染的深层推理效能。

解决学术问题

TextEditBench致力于解决视觉文本编辑研究中长期存在的关键学术问题，即如何量化评估模型在涉及物理合理性、语言意义及跨模态依赖的推理密集型场景中的性能。传统评估往往局限于图像质量指标，而该数据集引入了语义期望（SE）这一新颖维度，并融合像素级与语义级双重评估轨道，为衡量模型在保持语义一致性、布局合理性和跨模态对齐方面的能力提供了标准化方案。这显著推进了该领域从单纯渲染质量向复杂推理能力评估的范式转变。

实际应用

在实际应用层面，TextEditBench为开发智能文档处理、自动化界面设计以及增强现实中的文本适配等系统提供了关键的评估工具。例如，在自动化生成或修改专业文档、数字界面标识或产品包装文本时，系统需要确保编辑后的内容在视觉上自然、语义上准确且符合物理语境。该数据集的细粒度难度分级和多样化任务设计，能够帮助工程师精准测试并优化相关模型在实际业务场景中的鲁棒性与可靠性，从而提升最终产品的用户体验与实用性。

数据集最近研究