BaDLAD
收藏arXiv2023-05-05 更新2024-06-21 收录
下载链接:
https://bengaliai.github.io/badlad
下载链接
链接失效反馈官方服务:
资源简介:
BaDLAD是由孟加拉人工智能创建的大型多领域孟加拉文档布局分析数据集,包含33,693个人工标注的文档样本,涵盖书籍、政府文件、解放战争文件、新闻报纸、历史报纸和财产契约等六个领域,总计710K个多边形标注,用于文本框、段落、图像和表格四种单元类型。该数据集通过从公共在线资源抓取和手动扫描收集数据,经过严格的标注和验证流程创建。BaDLAD旨在解决孟加拉文档数字化中的布局分析问题,特别是在历史文档和报纸的转录方面,通过提供多样化的布局和领域,支持深度学习模型的训练和评估。
提供机构:
孟加拉人工智能
创建时间:
2023-03-09
搜集汇总
背景与挑战
背景概述
BaDLAD是一个大型多领域孟加拉文档布局分析数据集,包含33,693个人工标注样本,覆盖书籍、政府文件等多个领域,总计710K个多边形标注,用于文本框、段落等四种单元类型。它通过抓取和扫描收集数据,旨在解决孟加拉文档数字化中的布局分析问题,特别是支持历史文档和报纸转录的深度学习模型训练。
以上内容由遇见数据集搜集并总结生成



