公文OCR识别
收藏华东江苏大数据交易中心2024-12-02 更新2024-12-03 收录
下载链接:
http://www.hddatapay.com/dataProductInfo/Details/350
下载链接
链接失效反馈官方服务:
资源简介:
基于行业前沿的深度学习技术,根据在《国家行政机关公文处理办法》中公文相关写法、语义知识学习和训练,针对各类公文的图片或扫描件,提供公文的份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名等文本信息区域快速定位解析并格式化输出文本信息。可代替人工录入公文信息,提升公文处理工作效率。
Based on cutting-edge industry deep learning technologies, this dataset is trained on official document writing specifications and semantic knowledge stipulated in the "Measures for the Handling of Official Documents of State Administrative Organs". For images or scanned copies of various official documents, it can rapidly locate, parse and extract text regions including document serial number, confidentiality level and confidentiality period, urgency level, issuing authority header, document issuing number, authorized signatory, title, recipient agency, main body, attachment note, and issuing authority signature, then format and output the extracted text. This dataset can replace manual entry of official document information, thereby improving the efficiency of official document processing work.
提供机构:
盐城市大数据集团有限公司
创建时间:
2024-12-02
搜集汇总
背景与挑战
背景概述
该数据集基于深度学习技术,针对公文图片或扫描件,能够自动定位和解析份号、密级、标题、正文等关键文本区域,并输出格式化信息。它依据《国家行政机关公文处理办法》进行训练,旨在替代人工录入,显著提升公文处理效率。
以上内容由遇见数据集搜集并总结生成



