DoGe Synthetic Document Dataset

github2024-11-15 更新2024-11-28 收录

下载链接：

https://github.com/Travvy88/DoGe

下载链接

链接失效反馈

官方服务：

资源简介：

DoGe合成文档数据集是一个用于文档AI的合成数据集，包含带有文本和边界框注释的文档图像。图像包含标题、表格、具有不同格式和字体的段落，这些内容从维基百科解析而来。

The DoGe Synthetic Document Dataset is a synthetic dataset tailored for Document AI, comprising document images annotated with text and bounding boxes. These images include titles, tables, and paragraphs with diverse formats and fonts, all parsed from Wikipedia.

创建时间：

2024-11-02

原始信息汇总

DoGe — 合成文档生成器

数据集概述

DoGe 是一个用于合成真实文档扫描数据集的工具。每个文档包含有意义的文本、标题、表格、段落，这些内容从维基百科中解析得到。使用 No-OCR 方法提取单词的坐标，以便在 CPU 上更快地生成数据。

文档示例

示例图片：
- resources/im_2.png
- resources/im_9.png
- resources/im_10.png
- resources/im_12.png

数据生成

主要参数

--out_dir: 输出目录，必填。
--remove_excisting_dir: 是否在创建新目录前删除现有目录，默认 False。
--image_size: 最终图像的尺寸，默认 244。
--start_page: 起始页面 URL，默认维基百科主页。
--languages: 允许的语言，默认 [en]。
--max_urls: 最大处理的 URL 数量，默认 100。
--num_processes: 使用的进程数，默认 1。
--max_threads: 每个进程内的最大线程数，默认 3。
--ports: 使用的端口列表，默认 [8145, 8146]。

Docx_config.json

max_words: 生成文档中允许的最大单词数。
p_2columns: 文档格式化为两列的概率。
font_size_interval: 字体大小范围，随机选择。
p_line_spacing: 控制文档行间距的概率列表。
p_text_alignment: 控制文档文本对齐方式的概率列表。
p_heading_bold: 标题使用粗体字的概率。
heading_relative_size_interval: 标题相对字体大小范围，随机选择。
p_heading_alignment: 控制标题对齐方式的概率列表。
table_max_rows: 表格中允许的最大行数。
table_max_cols: 表格中允许的最大列数。

数据生成流程

Manager 类创建 DocumentGenerator 实例。
UrlParser 生成 URL 列表。
DocumentGenerator 实例从维基百科页面提取内容并生成 Docx 文档。
应用随机参数化。
将 Docx 转换为图像。
使用 OpenCV 检测矩形坐标。
保存标注为 JSON 文件。
删除颜色填充，应用 Augraphy 增强，保存增强后的图像。

致谢

搜集汇总

数据集介绍

构建方式

DoGe Synthetic Document Dataset的构建基于一种创新的合成方法，旨在生成逼真的文档扫描图像。该数据集通过从维基百科解析文本、标题、表格和段落，并应用不同的格式和字体，生成具有丰富内容的文档。特别地，该数据集采用了一种名为No-OCR的方法，通过在CPU上快速提取单词的坐标，显著提高了生成效率。生成的文档随后通过Unoserver转换为PDF，并使用pdf2image进行图像渲染，最终通过OpenCV检测图像中的矩形坐标，并将这些信息保存为JSON格式的标注文件。

特点

DoGe Synthetic Document Dataset的显著特点在于其高度逼真的文档合成能力，涵盖了多种格式和字体，以及复杂的布局结构。此外，数据集支持多语言内容，允许用户根据需求生成不同语言的文档。数据集还包含丰富的增强功能，通过Augraphy库对最终图像进行多种增强处理，如模拟打印和扫描效果，从而进一步提升数据的真实性和多样性。

使用方法

使用DoGe Synthetic Document Dataset时，用户可以通过Docker或Ubuntu环境进行部署，安装必要的依赖项后，运行main.py脚本即可开始数据生成。用户可以自定义输出目录、图像尺寸、处理语言、最大URL数量等参数，以满足不同的研究或应用需求。生成的数据包括图像文件和对应的JSON标注文件，适用于文档分析、OCR技术评估等多种场景。此外，用户还可以通过调整src/augmentations.py文件中的设置，进一步定制图像增强效果。

背景与挑战

背景概述

DoGe Synthetic Document Dataset，由Travvy88开发，旨在为文档AI领域提供一个高度逼真的合成文档扫描数据集。该数据集通过从维基百科解析文本、标题、表格和段落，并应用独特的No-OCR方法提取词坐标，从而生成具有多样化格式和字体的文档图像。自其创建以来，DoGe已成为文档处理和分析研究中的重要资源，尤其在提高文档识别和理解算法的鲁棒性和准确性方面发挥了关键作用。

当前挑战

DoGe数据集在构建过程中面临多项挑战。首先，从维基百科提取和解析大量文本数据需要高效的网络爬虫技术和强大的HTML解析能力。其次，生成逼真的文档图像涉及复杂的文本布局和格式化问题，如字体大小、对齐方式和列布局的随机化处理。此外，图像增强和数据扩充阶段需要精确的图像处理技术，以确保生成的图像在视觉上与真实文档无异。最后，数据集的生成过程依赖于多进程和多线程技术，以提高处理速度和效率，这对系统资源管理和调度提出了较高要求。

常用场景

经典使用场景

DoGe Synthetic Document Dataset 在文档人工智能领域中，常被用于训练和评估文档解析与识别模型。其合成生成的文档包含多种格式，如标题、表格、段落等，且文本内容来源于维基百科，确保了数据的多样性和真实性。通过提取文本的坐标信息，该数据集能够为模型提供丰富的视觉和语义信息，从而提升模型在复杂文档结构中的解析能力。

实际应用

在实际应用中，DoGe Synthetic Document Dataset 被广泛用于文档自动化处理系统，如自动文档分类、信息提取和文档检索等。其生成的合成文档能够模拟真实世界的复杂文档结构，使得训练出的模型在实际应用中表现更为稳健和准确。此外，该数据集还支持多语言文档的处理，为全球化的文档处理需求提供了技术支持。

衍生相关工作

基于DoGe Synthetic Document Dataset，研究者们开发了多种文档处理工具和算法。例如，一些研究工作利用该数据集训练深度学习模型，以提高文档解析的准确性和效率。此外，DoGe还激发了关于文档生成和增强技术的研究，如通过Augraphy进行图像增强，进一步提升文档处理的效果。这些衍生工作不仅丰富了文档人工智能的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集