TextSculpt-Data

Name: TextSculpt-Data
Creator: 北京交通大学; 字节跳动
Published: 2026-05-20 20:22:26
License: 暂无描述

arXiv2026-05-20 更新2026-05-22 收录

下载链接：

https://github.com/linyiheng123/TextSculptor

下载链接

链接失效反馈

官方服务：

资源简介：

TextSculpt-Data是由北京交通大学和字节跳动联合构建的大规模高保真场景文本编辑数据集，旨在解决现有开源训练数据稀缺和评估标准缺失的问题。该数据集包含120万条经过OCR验证的文本到图像样本以及200万对源-目标图像对齐、背景一致性强的文本编辑配对样本，总计320万条训练数据，数据来源结合了基于VLM的标题改写、高质量图像合成以及程序化文本渲染与合成技术。其构建过程采用自动化流水线，通过程序化渲染确保文本编辑的精确性和背景区域的严格保留。该数据集主要应用于场景文本编辑领域，支持文本添加、替换、删除和混合编辑等核心任务，旨在提升模型在文本渲染和编辑方面的精确性与视觉真实性。

TextSculpt-Data is a large-scale high-fidelity scene text editing dataset jointly constructed by Beijing Jiaotong University and ByteDance, aiming to address the issues of scarce open-source training data and lack of standardized evaluation metrics. This dataset contains 1.2 million OCR-validated text-to-image samples and 2 million pairs of source-target aligned text editing paired samples with strong background consistency, totaling 3.2 million training samples. Its data sources integrate VLM-based caption rewriting, high-quality image synthesis, and procedural text rendering and synthesis technologies. The dataset is built via an automated pipeline, which ensures the accuracy of text editing and strict retention of background regions through procedural rendering. This dataset is primarily applied in the field of scene text editing, supporting core tasks such as text addition, replacement, deletion and hybrid editing, aiming to enhance the accuracy and visual realism of models in text rendering and editing.

提供机构：

北京交通大学; 字节跳动

创建时间：

2026-05-20

原始信息汇总

数据集名称：TextSculptor: Training and Benchmarking Scene Text Editing

数据集地址：

数据集下载页面：https://huggingface.co/datasets/dafbgd/TextSculpt-Data

数据集状态：

已发布：TextSculpt-Data（训练/微调用数据集）
待发布：TextSculpt-Bench（评测基准）及评测脚本

相关资源：

论文预印本：https://arxiv.org/abs/2605.21090

引用格式： bibtex @article{lin2026textsculptor, title={TextSculptor: Training and Benchmarking Scene Text Editing}, author={Lin, Yiheng and Jiao, Siyu and Lan, Xiaohan and Zhou, Wei and She, Qi and Yu, Fei and Chen, Heyun and Wang, Zhengwei and Chen, Jinghuan and Li, Moran and Yu, Yingchen and Feng, Zijian and Zhao, Yao and Wei, Yunchao and Zhong, Yujie}, journal={arXiv preprint arXiv:2605.21090}, year={2026} }

说明：该数据集用于场景文本编辑（Scene Text Editing）任务的训练与基准测试，目前仅开放了训练数据部分（TextSculpt-Data），评测集（TextSculpt-Bench）和评估代码尚未发布。

搜集汇总

数据集介绍

构建方式

TextSculpt-Data的构建融合了自动化流水线与程序化渲染两大模块。首先，利用VLM（Qwen3-VL）对大规模图文语料进行语义重写，生成包含情境化文本描述与放置线索的提示词，再经由多个图像生成模型合成高分辨率图像，并通过OCR质量门控筛选出120万样本，构成文本渲染子集。其次，通过随机采样高频词汇与开源字体库，借助Python渲染引擎同步生成源文本层与目标文本层，保留字体、颜色、笔画宽度等视觉属性，并将这些渲染层通过OCR检测避开图像中已有文字区域后进行合成，形成200万对具有精确像素级对齐的文本编辑配对数据，总计320万训练样本。

特点

该数据集的两大突出特点在于规模宏大与背景保真度的天然保证。一方面，包含120万文本到图像样本与200万文本编辑配对样本，覆盖文本添加、替换、移除及混合编辑四类核心任务，为模型提供了丰富的语义与操作多样性。另一方面，程序化合成策略确保所有非编辑像素在图像合成过程中保持不变，从根本上避免了生成式修复可能引入的背景失真问题，同时编辑区域内的文本内容、字体风格与几何布局均具备精确的像素级标注，为模型学习精准的局部文本操控与背景一致性提供了强监督信号。

使用方法

该数据集适用于训练基于扩散模型的场景文本编辑系统，用户可将其作为微调数据直接与预训练模型结合。例如，基于Qwen-Image-Edit框架，通过LoRA策略在32块GPU上进行一个周期的微调，学习率设为1×10⁻⁴，有效批量大小为512。数据加载时，文本渲染子集用于增强模型的文字生成能力，文本编辑配对子集则用于指导模型执行添加、替换、移除及混合编辑操作。训练后的模型在配套的TextSculpt-Bench基准上评估，该基准通过OCR对齐、多模态评判与背景区域SSIM三大维度全面衡量文本准确性、视觉质量与背景保留度。

背景与挑战

背景概述

TextSculpt-Data是由北京交通大学与字节跳动的研究团队于2026年联合构建的大规模场景文本编辑数据集，旨在解决多模态大语言模型与扩散模型在文本编辑任务中数据稀缺与评估体系缺失的核心瓶颈。该数据集包含320万训练样本，其中120万为经OCR验证的文本到图像样本，200万为通过程序化文本合成与自然背景融合生成的成对编辑样本，覆盖文本添加、替换、移除及混合编辑四种基础操作。自发布以来，TextSculpt-Data为开放源代码模型提供了高保真的训练材料，显著弥合了其与闭源系统在文本编辑精度与背景一致性上的性能差距，推动了场景文本编辑领域的标准化进程。

当前挑战

TextSculpt-Data所面临的挑战涵盖领域问题与构建过程两个层面。在领域层面，场景文本编辑要求模型在精确修改文字内容的同时，保持视觉真实感与非目标区域的完整性，然而现有开放源代码数据资源主要面向文本到图像生成而非指令驱动的文本编辑，导致模型在文字渲染的保真度与布局适配性上存在显著不足。在构建过程中，团队需克服高质量训练数据匮乏的困境：既要通过VLM重写与OCR过滤从大规模候选集中筛选出文本清晰且语义一致的图像，又需利用程序化渲染引擎生成像素级对齐的编辑对，并确保合成文字在字体、色彩与透视上与自然背景无缝融合，同时避免与图像中原有文字发生空间冲突，这对自动化管线的可控性与可扩展性提出了严苛要求。

常用场景

经典使用场景

TextSculpt-Data作为场景文本编辑领域的旗舰级数据集，其经典应用场景集中于训练和评估模型在自然图像中精准操控文字内容的能力。该数据集覆盖文本添加、替换、移除及混合编辑四大核心任务，要求模型在保留非编辑区域视觉真实性的前提下，实现文字内容的精确修改。依托其自动化构建管线，TextSculpt-Data提供了3.2M高质量样本，包括经OCR校验的文本渲染数据与背景严格一致的成对编辑数据，为模型学习鲁棒的文本视觉表征与区域级指令跟随能力奠定了坚实基础。研究者可借此系统性地提升模型在复杂文本场景下的编辑精度，弥补开源方案与商业系统间的性能鸿沟。

解决学术问题

TextSculpt-Data有效解决了场景文本编辑领域长期存在的两大学术瓶颈：一是高质量训练数据的匮乏，二是标准化评估基准的缺失。传统数据集多面向通用图像生成或物体属性编辑，难以提供细粒度的文字级操作监督。该数据集通过程序化渲染与背景合成策略，生成像素级对齐的源-目标编辑对，为文本替换、移除等精细操作提供了天然真值。同时，其配套的TextSculpt-Bench基准从文本准确性、视觉质量与背景保持三维度构建评价协议，采用OCR编辑距离与多模态判别相结合的方式，克服了以往仅依赖VLM主观打分的局限，推动了场景文本编辑从定性展示迈向定量分析的范式演进。

衍生相关工作

基于TextSculpt-Data及其构建理念，学术界涌现了一系列衍生研究工作。例如，部分工作借鉴其程序化合成管线，进一步融合多语言字形库与可微分渲染器，拓展了数据集在任意文字形状与复杂透视变形下的泛化能力。另一些研究则在其基准框架基础上，引入强化学习与布局规划策略，探索混合编辑任务中多操作间的语义协调与空间避碰难题。此外，TextSculpt-Data还启发了针对低资源文字场景的领域适应研究，通过少样本微调与风格迁移技术，将训练好的编辑能力迁移至手写体、艺术字等小众领域，推动了场景文本编辑技术从单一任务向通用、跨域应用的进阶发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集