巴基斯坦手写处方数据集
收藏arXiv2024-12-24 更新2024-12-26 收录
下载链接:
http://arxiv.org/abs/2412.18199v1
下载链接
链接失效反馈官方服务:
资源简介:
巴基斯坦手写处方数据集由巴基斯坦GIFT大学的研究团队创建,旨在解决手写处方中药名识别的难题。该数据集包含来自巴基斯坦不同地区的50名医生的1000张手写处方图像,经过数据增强技术处理后,扩展至9920张图像。数据增强手段包括亮度调整、对比度归一化、平移、剪切、弹性变换、高斯噪声以及裁剪填充等。数据集涵盖了多种手写风格和处方格式,确保了模型的鲁棒性和泛化能力。该数据集主要用于训练和验证基于深度学习的药名提取模型,旨在提高手写处方中药名识别的准确性和效率,解决医疗领域中的实际问题。
The Pakistani Handwritten Prescription Dataset was developed by a research team from GIFT University in Pakistan to address the challenge of drug name recognition in handwritten prescriptions. This dataset initially includes 1000 handwritten prescription images from 50 doctors across different regions of Pakistan, and is expanded to 9920 images via data augmentation techniques. The data augmentation methods involve brightness adjustment, contrast normalization, translation, shearing, elastic transformation, Gaussian noise injection, as well as cropping and padding. The dataset covers diverse handwriting styles and prescription formats, ensuring the robustness and generalization ability of the models. This dataset is primarily utilized for training and validating deep learning-based drug name extraction models, aiming to improve the accuracy and efficiency of drug name recognition in handwritten prescriptions and solve practical problems in the medical field.
提供机构:
巴基斯坦GIFT大学计算机科学系
创建时间:
2024-12-24
搜集汇总
数据集介绍

构建方式
巴基斯坦手写处方数据集的构建过程基于对巴基斯坦各地区医生手写处方的广泛收集。研究团队从50名医生处获取了约1000份手写处方,涵盖了多样化的书写风格和处方格式。为确保数据的代表性,所有处方均来自不同地区,并经过医生和患者的知情同意。为进一步增强模型的鲁棒性,研究团队采用了多种数据增强技术,包括亮度调整、对比度归一化、平移、轻微剪切、弹性变换、高斯噪声以及裁剪与填充,最终将数据集扩展至9920张图像。
使用方法
巴基斯坦手写处方数据集主要用于训练和评估基于深度学习的文本识别模型,特别是针对手写处方的药物名称提取任务。研究人员首先使用Mask R-CNN模型对处方图像进行分割,定位药物区域,随后通过Transformer-based Optical Character Recognition (TrOCR)模型进行文本识别。识别出的文本与预存的药物数据库进行匹配,以准确提取药物名称。该数据集的使用不仅提升了模型在复杂手写文本上的识别能力,还为自动化药物名称提取提供了可靠的数据支持。
背景与挑战
背景概述
巴基斯坦手写处方数据集由GIFT大学计算机科学系的Usman Ali等人于2024年创建,旨在解决从手写处方中准确提取药物名称的难题。该数据集包含来自巴基斯坦不同地区的1000份手写处方,涵盖了多样化的书写风格和处方格式。通过结合Mask R-CNN和Transformer-based Optical Character Recognition (TrOCR)技术,研究团队提出了一种创新的方法,显著提升了手写文本识别的准确性。该数据集的创建不仅为自动化药物提取提供了可靠的工具,还为手写文本识别领域的研究提供了重要的数据支持。
当前挑战
巴基斯坦手写处方数据集面临的主要挑战包括手写风格的多样性和处方格式的复杂性。由于医生的书写风格差异较大,且处方中可能包含缩写、符号等非标准文本,传统的OCR技术难以准确识别。此外,数据集的构建过程中,收集和标注手写处方图像也面临诸多困难,如图像质量不一、书写模糊等问题。为了应对这些挑战,研究团队采用了数据增强技术,并通过Mask R-CNN进行图像分割,结合TrOCR模型进行文本识别,最终实现了1.4%的字符错误率,显著提升了识别的准确性和鲁棒性。
常用场景
经典使用场景
巴基斯坦手写处方数据集在医学信息提取领域具有重要应用,特别是在处理手写医生处方时。该数据集通过结合Mask R-CNN和Transformer-based Optical Character Recognition (TrOCR)技术,能够有效识别和提取处方中的药物名称。其经典使用场景包括在医疗系统中自动处理手写处方,减少人工干预,提高药物识别的准确性和效率。
解决学术问题
该数据集解决了手写处方识别中的多个学术难题,尤其是手写风格多样性和处方格式不一致的问题。通过引入多头部注意力和位置嵌入技术,模型能够更好地处理手写文本的复杂性和变异性,显著降低了字符错误率(CER),为手写文本识别领域提供了新的解决方案。
实际应用
在实际应用中,巴基斯坦手写处方数据集被广泛用于医疗信息系统的自动化处理。通过该数据集训练的模型能够帮助药剂师和医疗工作者快速准确地识别手写处方中的药物信息,减少因手写不清导致的用药错误,提升医疗服务的质量和安全性。
数据集最近研究
最新研究方向
在医疗信息处理领域,手写处方的自动识别一直是一个具有挑战性的问题。巴基斯坦手写处方数据集的引入为这一领域提供了新的研究契机。该数据集通过结合Mask R-CNN和基于Transformer的光学字符识别(TrOCR)技术,成功实现了对多样化手写风格的精准识别。特别是在多头注意力机制和位置嵌入的加持下,模型在标准基准测试中达到了1.4%的字符错误率(CER),显著提升了药物名称提取的准确性和效率。这一研究不仅为医疗信息自动化处理提供了可靠的工具,也为跨文化、跨语言的手写文本识别开辟了新的研究方向。未来,随着深度学习技术的进一步发展,该数据集有望在更多复杂场景中得到应用,推动医疗信息处理的智能化和标准化进程。
相关研究论文
- 1Leveraging Deep Learning with Multi-Head Attention for Accurate Extraction of Medicine from Handwritten Prescriptions巴基斯坦GIFT大学计算机科学系 · 2024年
以上内容由遇见数据集搜集并总结生成



