BaDLAD

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/BengaliAI/BADLAD

下载链接

链接失效反馈

官方服务：

资源简介：

BaDLAD是一个大型多领域孟加拉文档布局分析数据集，包含33,695个人工标注的文档样本，来自六个领域：i)书籍和杂志，ii)公共领域政府文件，iii)解放战争文件，iv)报纸，v)历史报纸，vi)产权证书，共有710K个多边形标注，用于四种单元类型：文本框、段落、图像和表格。通过初步实验，展示了该数据集在训练基于深度学习的孟加拉文档数字化模型中的有效性。

BaDLAD is a large-scale multi-domain Bengali document layout analysis dataset, comprising 33,695 manually annotated document samples from six domains: i) books and magazines, ii) public domain government documents, iii) liberation war documents, iv) newspapers, v) historical newspapers, and vi) property deeds. It includes 710K polygon annotations for four types of units: text boxes, paragraphs, images, and tables. Preliminary experiments have demonstrated the effectiveness of this dataset in training deep learning-based models for Bengali document digitization.

创建时间：

2023-01-25

原始信息汇总

BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset

数据集概述

名称: BaDLAD
类型: 多领域文档布局分析数据集
规模: 包含33,695个文档样本
领域:
- 书籍和杂志
- 公共领域政府文件
- 解放战争文档
- 报纸
- 历史报纸
- 产权证书
标注: 710K个多边形标注，涉及四种单元类型：文本框、段落、图像和表格

数据集用途

用于训练深度学习模型，以实现孟加拉语文档的数字化

数据集链接

下载地址: Kaggle

搜集汇总

数据集介绍

构建方式

BaDLAD数据集的构建旨在填补孟加拉语文档布局分析（DLA）领域的大规模数据集空白。该数据集精心收集并标注了来自六个不同领域的33,695份文档样本，包括书籍与杂志、公共领域政府文件、解放战争文件、报纸、历史报纸以及财产契约。这些文档样本经过人工标注，涵盖了710,000个多边形注释，涉及四种单元类型：文本框、段落、图像和表格。通过这种方式，BaDLAD为孟加拉语文档的数字化处理提供了丰富的训练资源。

特点

BaDLAD数据集的核心特点在于其多领域性和大规模性。该数据集不仅涵盖了广泛的文档类型，还通过精细的多边形注释确保了数据的高质量。此外，BaDLAD的多样性使得其能够有效应对不同领域和布局的文档，从而提升了基于深度学习的孟加拉语文档数字化模型的泛化能力。

使用方法

BaDLAD数据集可用于训练和评估孟加拉语文档布局分析模型。用户可以通过Kaggle平台访问数据集，并利用提供的模型权重进行初始化训练。此外，该数据集还支持参与Kaggle竞赛，进一步推动相关领域的研究和应用。通过结合深度学习技术，BaDLAD为孟加拉语文档的自动化处理提供了强有力的支持。

背景与挑战

背景概述

近年来，深度学习在孟加拉语光学字符识别（OCR）领域取得了显著进展，然而，文档布局分析（DLA）数据集的匮乏限制了OCR技术在文档转录中的应用，如历史文档和报纸的转录。现有的基于规则的DLA系统在面对领域变化和分布外布局时表现不佳。为此，我们推出了首个多领域大型孟加拉语文档布局分析数据集BaDLAD。该数据集包含33,695个来自六个领域的人工标注文档样本，涵盖书籍与杂志、公共领域政府文件、解放战争文件、报纸、历史报纸和财产契约，并包含710K个多边形标注，涉及文本框、段落、图像和表格四种单元类型。初步实验表明，该数据集能够有效训练基于深度学习的孟加拉语文档数字化模型。

当前挑战

BaDLAD数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理多领域文档的多样性，确保数据集能够覆盖广泛的布局和风格，这对标注的准确性和一致性提出了高要求。其次，尽管该数据集为孟加拉语文档布局分析提供了宝贵的资源，但其应用仍面临模型泛化能力的挑战，特别是在处理未见过的布局和领域变化时。此外，如何有效利用该数据集推动孟加拉语OCR技术的发展，仍需进一步研究和探索。

常用场景

经典使用场景

BaDLAD数据集在多领域孟加拉语文档布局分析中展现了其经典应用场景。该数据集通过提供来自六个不同领域的33,695个标注文档样本，包括书籍与杂志、政府公共文档、解放战争文档、报纸、历史报纸以及财产契约，为深度学习模型在孟加拉语文档数字化中的应用提供了丰富的训练数据。特别是，BaDLAD通过710K的polygon标注，涵盖了文本框、段落、图像和表格四种单元类型，使得模型能够更精确地识别和分析文档布局，从而在文档转录和历史文档保存等任务中发挥重要作用。

解决学术问题

BaDLAD数据集有效解决了孟加拉语文档布局分析领域中长期存在的数据稀缺问题。由于缺乏大规模的多领域标注数据，传统的基于规则的文档布局分析系统在面对不同领域和分布外的布局时表现不佳。BaDLAD通过提供多领域、大规模的标注数据，不仅推动了孟加拉语文档数字化研究的发展，还为构建更加鲁棒和适应性强的深度学习模型提供了可能，从而在学术研究中具有重要意义。

衍生相关工作

BaDLAD数据集的发布催生了一系列相关的经典工作。首先，基于该数据集的深度学习模型在孟加拉语文档布局分析任务中取得了显著的性能提升，推动了相关算法的研究和优化。其次，BaDLAD的成功应用激发了其他语言和领域构建类似多领域文档布局分析数据集的兴趣，促进了跨语言和跨领域的文档处理技术发展。此外，该数据集还为文档数字化和自动化处理领域的研究提供了新的基准和挑战，进一步推动了该领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集