five

Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets

收藏
NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/11109086
下载链接
链接失效反馈
官方服务:
资源简介:
Slovenský supermodel pre rukopisy M1 (SSM1) 24. apríla 2024 o 9:09 sme spustili Transkribus Expert v. 1.27.0 tvorbu novej súhrnnej slovenskej supermodelky. Podkladom pre vytvorenie supermodelu pre určité slovenské rukopisy boli čiastkové modely riešiteľov problémov v projekte Skriptor Model má označenie ID63569 Slovak Supermodel M1 (SSM1). Na vytvorenie modelu použitých 1359 stran v kvalite Ground Truth (GT); 56713 riadkov a 333777 slov. Z toho 1224 strán na školenie (Train set) a 135 strán na overenie nového modelu (Validation set). Podklady k tomuto vzoru sú v slovenskom, latinskom, maďarskom a českom jazyku. slovakizovaná čeština. Vstupné rukopisy mali rôznu kvalitu z hľadiska digitalizovaných. Niektoré digitalizované obrázky boli použité z digitálnych úložísk, zvyčajne v dobrej kvalite 600 dpi a niektoré boli výsledkom skenovania pomocou zariadenia ScanTent a softvéru DocScan v dostatočnej kvalite 300 dpi. Ukážky písiem dokumentov nájdete vo výskumnej štúdii Skriptor.  Zdrojové datasety: Typ Vlastník Model Názov modelu Počet strán GT Spolupráca M Bôbová Mária ID49629 SKRIPTOR_library_catalog_29.9P 25 (22/3)   M Katuščák Dušan ID63169 SKRIPTOR_Slovak_hand 331 (300/31) Transkripcia: K. Komorová, M. Bôbová, J. Kiss; Dat.analýza: E. Kowalská, I. Kollárová, T.Albert M Kunec Patrik ID60311 BBBDA - Canonical visitation protocol, 1756 - 8th  50 (43/7)   M Kurhajcová Alica ID57344 SKRIPTOR_Model J.M. Hurban 655 (590/65)    M Maliniak Pavol ID61347 Abraham model 18  90 (82/8)   M Nagy Imrich ID60197 SKRIPTOR_Catalog_Koháry_SABB 137  (125/12)   M Tomeček Oto ID59197 Neolatin Metales 1820  129 (117/12)   M1 All ID63569 Slovak Supermodel M1 (SSM1)  1328 (1359) Riešitelia APVV (rozdiel: rôzne parametre?) Samotné ukážky považujeme za veľmi dôležité pre ďalšie využitie a zdokonaľovanie modelu, keďže ďalší bádatelia získajú predstavu o podobnom alebo odlišnom písaní vlastných dokumentov, ktoré chcú prepisovať. Boli dosiahnuté hodnoty Train Set: 4,90 % a Validation Set: 5,30 %.Vytvorenie modelu SSM1 na serveri Transkribus trvalo dva dni, 5 hodín, 16 sekúnd, teda 53 hodín a 58 minút. Proces tvorby bol ukončený po 174 cykloch (epochách). Model SSM1 je prvým pokusom na Slovensku o vytvorenie nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy ručne písaných dokumentov, ktoré sa podobajú fontom používaným na ich tvorbu. ID63569 Slovak Supermodel M1 (SSM1) nemožno v žiadnom prípade považovať za definitívny univerzálny model na prepis historických rukopisov slovenskej proveniencie všetkých typov a období. Rozmanitosť písiem a štýlov rukopisu je nekonečná a vytvorenie optimálneho agregovaného modelu je výzvou pre ďalších výskumníkov a nadšencov v nasledujúcich rokoch. Veríme však, že náš prvý agregovaný model SSM1 môže uľahčiť automatický prepis ďalších analogických rukopisov. Riešiteľský tím plánuje sprístupniť datasety v rámci udržateľnosti projektu v rokoch 2024-2028 prednostne na výskumné a vzdelávacie účely pre inštitúcie a výskumníkov, ktorí chcú prispieť k vytvoreniu modelu historických rukopisov v západoslovanských jazykoch, respektíve jazyky slovenského a českého pôvodu. Copyright: CC BY-NC-SA.Samozrejme, takýto automatický prepis neprinesie okamžite uspokojivé výsledky. Môže však uľahčiť „hrubý“ automatický prepis ďalších stránok krok za krokom, ich ručnú opravu na stav GT a následné použitie väčších súborov údajov GT na spresnenie nového modelu založeného na našom SSM1. Po vytvorení ďalších stoviek a tisícok stránok GT bude možné pristúpiť k tvorbe ďalších generácií nových modelov založených na SSM1. Vývoj by mohol pokračovať pre rukopisy s modelmi nových generácií SSM2, SSM3 atď. Respektíve pre tlače a sadzbu (P-Print), ako sú supermodely SSP1, SSP2, SSP3 atď. (Google translate)
创建时间:
2024-05-24
二维码
社区交流群
二维码
科研交流群
商业服务