FoNDUE-HTR: Data and models for the FoNDUE project
收藏SSH Open MarketPlace2024-05-01 更新2024-08-03 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/IBlbx4
下载链接
链接失效反馈官方服务:
资源简介:
Ce dossier contient de nombreux sets de données et models utilises pour le ’HTR (Handwritten Text Recognition), parfois aussi appelé OCR (Optical character recognition).
L’HTR permet d'extraire rapidement et efficacement un maximum d’informations d’une page numérisée, dont évidemment la transcription mais pas uniquement (illustrations, mise en page...), et reproduire cette opération sur des grandes quantités de documents. L'obtention de ces données, désormais cruciales pour concevoir les grands corpus nécessaires à la recherche en lettres, implique des besoins informatiques nouveaux et très importants. Concernant la partie logiciel, le choix des équipes de l'UNIGE s’est porté sur eScriptorium [lien], une application en ligne proposant une solution intégralement open source, déjà mature d’un point de vue technique (plusieurs années de développement) et bénéficiant de soutiens internationaux (France, USA, Allemagne…) qui en garantissent la fiabilité et l'efficacité.
本文件夹包含大量用于手写文本识别(Handwritten Text Recognition,HTR)的数据集与模型,HTR有时也被称为光学字符识别(Optical Character Recognition,OCR)。
HTR能够从数字化页面中快速高效地提取尽可能多的信息——显然包括文本转录,但不限于此(如图示、排版等)——并可在大量文档上重复执行这一操作。获取这些数据如今对于构建人文研究所需的大型语料库至关重要,这意味着全新且极高的计算需求。
在软件层面,日内瓦大学(UNIGE)团队选择了eScriptorium[链接]:一款提供完全开源解决方案的在线应用程序。该应用在技术上已十分成熟(历经数年开发),并获得法国、美国、德国等国家的国际支持,这确保了其可靠性与高效性。
创建时间:
2024-05-01



