BN-HTRd
收藏arXiv2022-05-30 更新2024-06-21 收录
下载链接:
https://data.mendeley.com/datasets/743k6dm543
下载链接
链接失效反馈官方服务:
资源简介:
BN-HTRd数据集是由Premier University和University of Chittagong合作创建,用于离线孟加拉语手写文本识别和行分割。该数据集基于BBC孟加拉语新闻语料库,包含788张手写页面,由约150名不同作者书写,总计108,147个手写单词。创建过程中,首先收集并整理了新闻文本,然后分发给不同背景的作者进行手写。数据集主要用于解决手写文档的自动识别问题,支持从文档到单词级别的识别任务,如端到端文档识别和单词分割等。
The BN-HTRd dataset was collaboratively developed by Premier University and the University of Chittagong for offline Bengali handwritten text recognition and line segmentation. Built upon the BBC Bengali news corpus, this dataset consists of 788 handwritten pages created by approximately 150 diverse authors, totaling 108,147 handwritten words. During its development, news texts were first collected and curated, then distributed to authors with varied backgrounds for handwritten transcription. This dataset is primarily designed to address automatic recognition challenges for handwritten documents, supporting recognition tasks ranging from document-level to word-level, such as end-to-end document recognition and word segmentation.
提供机构:
Premier University 和 University of Chittagong
创建时间:
2022-05-30
搜集汇总
数据集介绍

构建方式
在孟加拉语手写文本识别领域,构建高质量数据集是推动算法发展的基石。BN-HTRd数据集的构建始于从BBC孟加拉语新闻网站爬取文本内容作为真实文本来源,确保了语料的多样性与权威性。随后,这些文本被分发给约150名不同年龄、职业背景的书写者,在A4纸张上进行自然书写,最终采集了788页手写图像。数据标注过程采用分层策略,由部分参与者手动裁剪单词并记录Unicode文本,同时利用LabelImg工具进行行级标注,并通过严格的校对流程确保标注准确性,从而形成了包含文档、行、单词三级注释的完整数据集。
特点
BN-HTRd数据集作为当前最大规模的孟加拉语离线手写文本识别基准,其显著特点在于覆盖了广泛的书写风格与内容多样性。数据集包含108,147个手写单词实例,分布于13,867个文本行中,词汇量高达23,115个独特单词,且内容涉及体育、疫情、政治等多个新闻类别。此外,数据采集自不同年龄、性别和背景的书写者,笔迹的曲线特性与版面差异为模型训练提供了丰富的变化性。数据集不仅提供完整页面图像,还附带了行与单词的边界框坐标及对应文本标注,支持文档级端到端识别、行分割、单词定位等多种任务。
使用方法
该数据集适用于孟加拉语手写文档分析与识别研究的多个方向。研究者可基于提供的完整页面图像和行级标注,开发或评估文本行分割算法,例如利用所附的OPTICS聚类与霍夫变换方法进行无监督行提取。对于单词识别任务,数据集的单词级边界框与Unicode标注可用于训练深度学习模型,如卷积神经网络与长短时记忆网络结合的结构,实现端到端单词识别或关键词检索。此外,数据集的结构化文件夹组织与标准命名格式便于直接加载至TensorFlow或YOLO等框架,支持监督学习下的行检测与文本识别实验,推动孟加拉语手写文档数字化进程。
背景与挑战
背景概述
在数字革命时代,手写文档的自动化处理成为提升政府与非政府组织效率的关键。孟加拉语作为全球使用人数众多的语言之一,其离线手写文本识别研究却因缺乏文档级数据集而进展缓慢。BN-HTRd数据集由孟加拉国Premier University和University of Chittagong的研究团队于近年创建,旨在填补这一空白。该数据集基于BBC孟加拉语新闻语料库,通过约150名书写者采集了788页手写图像,包含超过10万个单词实例,是目前该领域规模最大、注释最全面的基准数据集,为端到端文档识别、词行分割等任务提供了重要资源。
当前挑战
孟加拉语手写文本识别面临的核心挑战在于其复杂的曲线文字结构和多变的书写风格,导致词行分割准确率难以提升。BN-HTRd数据集构建过程中,研究者需克服数据采集的多样性难题,包括协调不同年龄、职业的书写者,并确保标注一致性。此外,数据预处理阶段需应对图像噪声、文字重叠及笔画粘连等问题,而现有的无监督分割方法在密集文本行或分辨率不足的图像中表现受限,影响了模型泛化能力。
常用场景
经典使用场景
在孟加拉语手写文档识别领域,BN-HTRd数据集为研究者提供了文档级离线手写文本识别的基准平台。该数据集包含788页由150位不同书写者完成的手写图像,覆盖了多样化的新闻类别和书写风格,其经典使用场景集中于端到端文档识别、词级定位以及文本行分割等任务。通过提供详尽的词、行及文档级标注,该数据集支持从预处理到模型评估的全流程研究,尤其在处理孟加拉语这种具有曲线特性的文字时,为算法开发与性能比较奠定了坚实基础。
解决学术问题
BN-HTRd数据集有效解决了孟加拉语手写文档识别领域长期存在的标注数据匮乏问题。传统研究多集中于孤立字符识别,缺乏文档级的大规模标注资源,限制了深度学习等现代方法的运用。该数据集通过提供超过10万个手写词实例及对应的行分割标注,使研究者能够系统探索手写文本的布局分析、作者身份识别及多风格适应性等核心学术问题。其标注方案兼顾了书写变异性与标注一致性,为提升孟加拉语手写识别的准确性与鲁棒性提供了关键数据支撑。
衍生相关工作
围绕BN-HTRd数据集,已衍生出多项经典研究工作,特别是在无监督文本行分割方法上取得了显著进展。研究者结合霍夫线变换、霍夫圆变换及OPTICS聚类等技术,提出了一套针对孟加拉语曲线文本的行分割框架,在FM指标上达到81.57%的准确率。该工作为后续基于深度学习的行检测与词分割研究提供了重要基线,例如启发研究者探索卷积神经网络与长短时记忆网络结合的端到端识别模型。这些衍生工作共同推动了孟加拉语手写文档分析领域的算法创新与性能提升。
以上内容由遇见数据集搜集并总结生成



