TextEditBench
收藏TextEditBench 数据集概述
数据集简介
TextEditBench 是一个用于评估超越单纯渲染的、具备推理感知能力的文本编辑任务的综合性基准。该数据集明确聚焦于涵盖14个主题和6种任务类型的以文本为中心的区域,强调需要模型理解物理合理性、语言意义和跨模态依赖性的推理密集型场景。
核心特征
- 推理中心化:引入了语义期望评估维度。
- 场景多样化:覆盖14个主题和6种任务类型。
- 评估全面化:
- 轨道1(像素级):包含SSIM、PSNR、LPIPS、MSE指标。
- 轨道2(语义级):基于GPT-4o,评估指令遵循、文本准确性、视觉一致性、布局保持和语义期望。
数据集概览
TextEditBench 包含1,196个高质量实例,通过严格的人-人工智能-人验证流程构建。数据集结合了手动制作(58%) 和网络来源实例(42%),以平衡多样性和标注保真度。
数据构成
- 14个多样化主题:广泛覆盖日常视觉场景,包括专业文档、数字界面、标牌、菜单和包装等。
- 6种原子操作:系统化的编辑任务,旨在测试特定能力:删除、插入、更改、重定位、缩放和属性转移。
- 分层难度:每个实例根据10个难度属性进行评分(0-20分),并归类为简单、中等和困难等级,支持对模型鲁棒性进行细粒度分析。
数据获取与结构
数据集可通过 Hugging Face 获取:https://huggingface.co/datasets/MATH-finding/TextEditBench。
文件结构示例
data/ ├── canva/ │ └── Art_Creative_Expression/ │ ├── 001/ │ │ ├── 1.jpg │ │ ├── 1_mask.jpg │ │ ├── Art_Creative_Expression_001.json │ │ ├── text_delete_1.jpg │ │ └── text_delete_1_mask.jpg │ └── ... └── real/ ├── Art_Creative_Expression/ │ ├── 001/ │ │ ├── 1.jpg │ │ ├── 1_mask.jpg │ │ ├── Art_Creative_Expression_001.json │ │ └── text_delete_1_mask.jpg │ └── ... └── ...
评估方法
- 轨道1(像素级评估):使用提供的脚本计算掩码区域的SSIM、PSNR、LPIPS、MSE。
- 轨道2(语义级评估):使用GPT-4o评估指令遵循、文本准确性、视觉一致性、布局保持和语义期望。
引用信息
如果使用本工作或数据集,请引用: bibtex @misc{gui2025texteditbenchevaluatingreasoningawaretext, title={TextEditBench: Evaluating Reasoning-aware Text Editing Beyond Rendering}, author={Rui Gui and Yang Wan and Haochen Han and Dongxing Mao and Fangming Liu and Min Li and Alex Jinpeng Wang}, year={2025}, eprint={2512.16270}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.16270}, }
联系方式
如有问题,可通过邮件联系:8212231014@csu.edu.cn。




