five

BaDLAD

收藏
arXiv2023-05-05 更新2024-06-21 收录
下载链接:
https://bengaliai.github.io/badlad
下载链接
链接失效反馈
官方服务:
资源简介:
BaDLAD是由孟加拉人工智能创建的大型多领域孟加拉文档布局分析数据集,包含33,693个人工标注的文档样本,涵盖书籍、政府文件、解放战争文件、新闻报纸、历史报纸和财产契约等六个领域,总计710K个多边形标注,用于文本框、段落、图像和表格四种单元类型。该数据集通过从公共在线资源抓取和手动扫描收集数据,经过严格的标注和验证流程创建。BaDLAD旨在解决孟加拉文档数字化中的布局分析问题,特别是在历史文档和报纸的转录方面,通过提供多样化的布局和领域,支持深度学习模型的训练和评估。

BaDLAD is a large-scale multi-domain Bengali document layout analysis dataset developed by Bangladesh Artificial Intelligence. It contains 33,693 manually annotated document samples spanning six domains: books, government documents, liberation war documents, newspapers, historical newspapers, and property deeds. In total, there are 710k polygonal annotations covering four types of layout units: text boxes, paragraphs, images, and tables. The dataset was collected through scraping public online resources and manual scanning, and constructed via a rigorous annotation and validation workflow. BaDLAD aims to address layout analysis challenges in Bengali document digitization, particularly for the transcription of historical documents and newspapers. By providing diverse layout styles and domain coverage, it supports the training and evaluation of deep learning models.
提供机构:
孟加拉人工智能
创建时间:
2023-03-09
搜集汇总
背景与挑战
背景概述
BaDLAD是一个大型多领域孟加拉文档布局分析数据集,包含33,693个人工标注样本,覆盖书籍、政府文件等多个领域,总计710K个多边形标注,用于文本框、段落等四种单元类型。它通过抓取和扫描收集数据,旨在解决孟加拉文档数字化中的布局分析问题,特别是支持历史文档和报纸转录的深度学习模型训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作