Cross-Lingual SynthDocs
收藏arXiv2025-11-01 更新2025-11-11 收录
下载链接:
https://arxiv.org/abs/2511.04699
下载链接
链接失效反馈官方服务:
资源简介:
Cross-Lingual SynthDocs是一个大型的合成语料库,旨在解决阿拉伯语资源在光学字符识别(OCR)和文档理解(DU)方面的稀缺问题。该数据集包含超过250万个样本,包括150万个文本数据、27万个完全标注的表格以及成千上万的基于真实数据的图表。数据集的创建过程使用了真实的扫描背景、双语布局和带重音符号的字体来捕捉阿拉伯文档的排版和结构复杂性。除了文本,语料库还包括各种渲染样式的图表和表格。在SynthDocs上进行微调的Qwen-2.5-VL在多个公共阿拉伯基准测试中的单词错误率(WER)和字符错误率(CER)方面取得了一致的改进,其他模态的树编辑距离相似度(TEDS)和图表提取分数(CharTeX)也有所提高。SynthDocs提供了一个可扩展的、视觉上逼真的资源,用于推进多语言文档分析的研究。
Cross-Lingual SynthDocs is a large-scale synthetic corpus developed to alleviate the scarcity of Arabic-language resources for optical character recognition (OCR) and document understanding (DU). This dataset comprises over 2.5 million samples: 1.5 million text instances, 270,000 fully annotated tables, and thousands of real-data-derived charts. The construction of the dataset leverages real scanned backgrounds, bilingual layouts, and accented fonts to accurately capture the typographic and structural intricacies of Arabic documents. In addition to textual content, the corpus features charts and tables rendered in a diverse range of visual styles. Qwen-2.5-VL fine-tuned on SynthDocs has demonstrated consistent improvements in word error rate (WER) and character error rate (CER) across multiple public Arabic benchmark datasets, alongside enhanced tree edit distance similarity (TEDS) and chart extraction score (CharTeX) for other modalities. SynthDocs offers a scalable, visually realistic resource to advance research in multilingual document analysis.
提供机构:
沙特阿拉伯,利雅得
创建时间:
2025-11-01
搜集汇总
数据集介绍

构建方式
在阿拉伯语文档理解资源匮乏的背景下,Cross-Lingual SynthDocs数据集通过自动化合成流程构建而成。该流程整合了真实扫描背景、双语布局及变音符号感知字体,以模拟阿拉伯语文档的复杂版式结构。具体方法包括从行业文档库提取多语言原始数据,通过邻接图算法重建语义段落,并利用大语言模型进行精准翻译与布局保留。最终采用Python Pillow库进行多字体多色彩的视觉渲染,生成包含文本、表格与图表的多模态合成样本。
特点
该数据集以其规模性与真实性著称,囊括超过250万样本,涵盖150万文本片段、27万全标注表格及数十万基于真实数据的图表。其核心优势在于深度融合阿拉伯语特有的右向左书写方向、复杂变音系统与多列布局,同时通过随机化字体、色彩与版式增强视觉多样性。表格数据采用一致性与随机性双生成策略,图表覆盖15种标准类型并配以结构化注释,为跨语言文档分析提供了兼具语言学准确性与视觉复杂性的资源基础。
使用方法
该数据集适用于光学字符识别与文档理解任务的模型训练与评估。研究人员可通过加载合成图像与对应标注文件,直接用于视觉语言模型的微调流程。实验表明,基于Qwen系列模型的微调能显著降低单词错误率与字符错误率,并在树编辑距离相似度和图表提取分数等指标上取得提升。使用时需注意结合原始布局元数据,充分发挥其跨语言对齐特性,同时可通过调整噪声水平与版式变体来增强模型在真实场景中的泛化能力。
背景与挑战
背景概述
在文档理解研究领域,阿拉伯语资源长期处于匮乏状态,主要归因于其复杂的文字形态、右至左书写方向及多样化的排版结构。为应对这一挑战,2025年由沙特阿拉伯研究团队推出的Cross-Lingual SynthDocs数据集应运而生,该合成语料库涵盖超过250万样本,包括文本、表格与图表数据,通过融合真实扫描背景与双语布局技术,显著提升了阿拉伯语光学字符识别与文档理解任务的性能,填补了多语言文档分析领域的资源空白。
当前挑战
该数据集致力于解决阿拉伯语文档识别与理解中的核心难题,包括复杂字形识别、多列布局解析及跨语言语义对齐问题。在构建过程中,团队需克服阿拉伯语变音符号的动态渲染、右至左文本的视觉模拟,以及真实文档噪声干扰等挑战,通过自适应布局算法与多语言对齐策略,确保了数据集的视觉真实性与结构完整性。
常用场景
经典使用场景
在阿拉伯语文档分析与多语言OCR研究领域,Cross-Lingual SynthDocs数据集被广泛应用于训练和评估视觉语言模型。通过其包含的250万样本,涵盖文本、表格与图表等多模态数据,研究者能够系统优化模型在复杂阿拉伯语排版下的识别精度。该数据集特别注重模拟从右向左的书写方向、变音符号处理及多栏布局等语言特性,为文档结构解析任务提供了高度仿真的实验环境。
解决学术问题
该数据集有效缓解了阿拉伯语OCR与文档理解领域资源匮乏的核心难题。通过生成兼具语言学准确性与视觉真实性的合成数据,解决了传统方法因缺乏大规模标注数据而导致的模型泛化能力不足问题。其在KITAB-Bench等基准测试中显著降低了字符错误率与词汇错误率,同时提升了表格树编辑距离相似度和图表解析分数,为低资源语言文档分析建立了新的技术范式。
衍生相关工作
基于该数据集衍生的经典工作包括阿拉伯语专用文档生成框架Arabic-Nougat与高保真识别系统QARI-OCR。这些研究通过引入动态变音符号处理与混合布局模拟技术,进一步扩展了合成数据在历史文献修复中的应用。同时催生了针对阿拉伯语特性的空间语义分块方法,为跨语言文档理解模型提供了新的架构设计思路。
以上内容由遇见数据集搜集并总结生成



