WeEdit Dataset

github2026-03-13 更新2026-03-15 收录

下载链接：

https://github.com/HuiZhang0812/WeEdit

下载链接

链接失效反馈

官方服务：

资源简介：

WeEdit数据集是一个大规模文本中心图像编辑数据集，包含330K文本中心编辑对，通过新颖的基于HTML的自动管道构建，涵盖7种编辑操作和15种语言。

The WeEdit dataset is a large-scale text-centric image editing dataset that includes 330K text-centric editing pairs, is built using a novel HTML-based automated pipeline, and covers 7 editing operations and 15 languages.

创建时间：

2026-03-12

原始信息汇总

WeEdit 数据集概述

数据集简介

WeEdit 是一个专注于文本中心图像编辑的系统性框架，旨在解决修改、翻译和重新排列图像中嵌入文本元素的挑战。该框架包含一个大规模数据集和一个标准化评测基准。

数据集详情

名称：WeEdit Dataset
规模：包含 330K 个高质量的文本中心图像编辑对。
构建方法：通过两种互补的自动化流程构建：
- 结构化数据（约 170K）：基于 HTML 的流程，将源图像转换为 HTML，通过视觉语言模型提取和编辑文本内容，并通过无头浏览器渲染源图像和目标图像，生成像素级精确的编辑对。
- 非结构化数据（约 160K）：直接在图像层面操作的自动化编辑-验证-重试流程，适用于具有复杂布局、多样化排版以及文本与复杂视觉背景紧密交织的图像。
覆盖操作：涵盖 7 种编辑操作类型：添加、替换、删除、重新排列、翻译、更改样式、组合。
覆盖语言：支持 15 种语言：英语、中文、印地语、西班牙语、法语、阿拉伯语、葡萄牙语、孟加拉语、俄语、德语、韩语、日语、泰语、印尼语、越南语。

评测基准详情

名称：WeEdit Benchmark
获取地址：https://huggingface.co/datasets/HuiZhang0812/WeEdit_benchmark
构成：
- 双语基准：包含 2,000 个测试用例，覆盖中文和英文。
- 多语言基准：包含 2,000 个测试用例，覆盖上述 15 种语言。
任务类别：涵盖 8 个任务类别：添加、替换、删除、重新排列、翻译、更改样式、组合和推理。
评估维度：从指令遵循度、文本清晰度和背景保真度三个维度进行评估。

评估方法

生成编辑后的图像，并保存至指定结果目录的 generated_imgs/ 子文件夹中。图像命名格式应为 {img_id}_{instruction_type}.png。
在评估脚本 evaluation/evaluation_benchmark.py 中实现自定义的 Gemini-3-Pro API 调用。
运行评估脚本，指定结果目录和基准文件路径（benchmark/Bilingual_benchmark.jsonl 或 benchmark/Multilingual_benchmark.jsonl）。
评估使用 Gemini-3-Pro 作为公正的视觉语言模型评委，在 0-9 的尺度上对编辑后的图像进行打分。

主要结果

根据提供的数据，WeEdit 框架在双语和多语言基准测试中，在开源模型中取得了最佳性能，超越了大多数专有模型，排名仅次于 Gemini-3-Pro-Image。

引用

如果本工作对您的研究和应用有所帮助，请使用以下 BibTeX 引用： latex @article{zhang2026weedit, title={WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing}, author={Zhang, Hui and Liu, Juntao and Liu, Zongkai and Niu, Liqiang and Meng, Fandong and Wu, Zuxuan and Jiang, Yu-Gang}, journal={arXiv preprint arXiv:2603.11593}, year={2026} }

搜集汇总

数据集介绍

构建方式

在文本中心图像编辑这一新兴领域，高质量数据的稀缺性构成了技术发展的主要瓶颈。WeEdit数据集的构建巧妙地融合了结构化与非结构化两种自动化流程，以应对这一挑战。其结构化部分采用了一种创新的HTML转换方法，将源图像转化为HTML文档，借助视觉语言模型提取并编辑其中的文本内容，最终通过无头浏览器渲染出像素级精确的编辑前后图像对。非结构化流程则直接作用于图像层面，通过编辑-验证-重试的循环机制，处理那些布局复杂、字体多样或文本与背景高度融合的图像。这套双轨并行的自动化流水线，最终生成了涵盖七种编辑操作与十五种语言的三十三万组高质量数据对。

特点

WeEdit数据集的核心特征在于其规模、多样性与系统性。该数据集拥有三十三万组精心构建的图像编辑对，其规模在同类数据中居于领先地位。多样性体现在其全面覆盖了添加、替换、删除、重排、翻译、风格变换及组合操作等七种核心编辑任务，并支持包括中、英、日、韩等在内的十五种语言，为多语言场景下的模型训练提供了坚实基础。系统性则通过其配套的标准化评测基准得以彰显，该基准包含双语与多语言两个子集，各含两千个测试案例，并设立了指令遵循、文本清晰度与背景保持三个维度的量化评估标准，为模型性能提供了客观、全面的衡量体系。

使用方法

为有效利用WeEdit数据集及其基准，研究者需遵循一套清晰的流程。在模型训练阶段，数据集提供的海量编辑对可直接用于监督式微调，特别是其提出的字形引导微调方法，通过注入渲染的字形图像作为空间先验，能有效提升模型对文本位置与字符细节的编辑精度。在模型评估阶段，用户需在指定基准上生成编辑后的图像，并按照要求命名和存放。随后，通过调用修改后的评估脚本，利用Gemini-3-Pro等视觉语言模型作为评判者，即可自动对生成结果在指令遵循、文本清晰度与背景保持三个维度上进行打分，从而获得模型在文本中心图像编辑任务上的量化性能指标。

背景与挑战

背景概述

在数字媒体与人工智能交叉领域，文本中心图像编辑技术旨在精准修改嵌入图像中的文字内容，是视觉内容生成与理解的前沿方向。WeEdit数据集由腾讯微信人工智能团队与复旦大学、中山大学的研究人员于2026年联合创建，其核心研究问题聚焦于解决图像中文本元素的修改、翻译与重排等复杂任务。该数据集通过大规模、高质量的编辑对构建，系统覆盖七种编辑操作与十五种语言，为多语言文本编辑模型的发展提供了关键数据支撑，显著推动了文本感知图像生成领域的标准化评估与技术进步。

当前挑战

文本中心图像编辑领域长期面临文本空间定位不准、字形风格保持困难以及多语言适配复杂等核心挑战。WeEdit数据集在构建过程中，需克服从复杂背景中精确分离文本、保持编辑后图像背景一致性以及处理多样化版式与字体等难题。为此，研究团队设计了基于HTML的结构化数据生成与基于图像的自动化验证重试双管道，以确保编辑对的像素级精准与高质量，从而应对实际应用中文本与视觉元素深度融合所带来的技术瓶颈。

常用场景

经典使用场景

在文本中心图像编辑领域，WeEdit数据集为模型训练与评估提供了核心资源。其经典使用场景在于支持对图像中嵌入的文本元素进行精细化操作，例如修改、翻译或重新排列文字。通过涵盖七种编辑操作和十五种语言的大规模数据对，该数据集能够训练模型理解并执行复杂的文本编辑指令，确保生成图像在文本内容准确性和视觉保真度方面达到高标准。

衍生相关工作

围绕WeEdit数据集，已衍生出多项重要的相关研究工作。其提出的字形引导监督微调框架，通过引入渲染的字形图像作为空间先验，启发了后续研究在提升字符级编辑保真度方面的探索。同时，数据集配套的多目标强化学习阶段及其分离的奖励模型设计，也为文本图像编辑的优化目标定义和训练策略提供了新的范式，促进了该领域方法论的多元化发展。

数据集最近研究