Slovak Supermodel M1 (SSM1) : Matej Bel University SKRIPTOR project datasets
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/11109086
下载链接
链接失效反馈官方服务:
资源简介:
Slovenský supermodel pre rukopisy M1 (SSM1)
24. apríla 2024 o 9:09 sme spustili Transkribus Expert v. 1.27.0 tvorbu novej súhrnnej slovenskej supermodelky. Podkladom pre vytvorenie supermodelu pre určité slovenské rukopisy boli čiastkové modely riešiteľov problémov v projekte Skriptor Model má označenie ID63569 Slovak Supermodel M1 (SSM1). Na vytvorenie modelu použitých 1359 stran v kvalite Ground Truth (GT); 56713 riadkov a 333777 slov. Z toho 1224 strán na školenie (Train set) a 135 strán na overenie nového modelu (Validation set).
Podklady k tomuto vzoru sú v slovenskom, latinskom, maďarskom a českom jazyku. slovakizovaná čeština. Vstupné rukopisy mali rôznu kvalitu z hľadiska digitalizovaných. Niektoré digitalizované obrázky boli použité z digitálnych úložísk, zvyčajne v dobrej kvalite 600 dpi a niektoré boli výsledkom skenovania pomocou zariadenia ScanTent a softvéru DocScan v dostatočnej kvalite 300 dpi. Ukážky písiem dokumentov nájdete vo výskumnej štúdii Skriptor.
Zdrojové datasety:
Typ
Vlastník
Model
Názov modelu
Počet strán GT
Spolupráca
M
Bôbová Mária
ID49629
SKRIPTOR_library_catalog_29.9P
25
(22/3)
M
Katuščák Dušan
ID63169
SKRIPTOR_Slovak_hand
331
(300/31)
Transkripcia: K. Komorová, M. Bôbová, J. Kiss; Dat.analýza: E. Kowalská, I. Kollárová, T.Albert
M
Kunec Patrik
ID60311
BBBDA - Canonical visitation protocol, 1756 - 8th
50
(43/7)
M
Kurhajcová Alica
ID57344
SKRIPTOR_Model J.M. Hurban
655
(590/65)
M
Maliniak Pavol
ID61347
Abraham model 18
90
(82/8)
M
Nagy Imrich
ID60197
SKRIPTOR_Catalog_Koháry_SABB
137
(125/12)
M
Tomeček Oto
ID59197
Neolatin Metales 1820
129
(117/12)
M1
All
ID63569
Slovak Supermodel M1 (SSM1)
1328
(1359)
Riešitelia APVV
(rozdiel: rôzne parametre?)
Samotné ukážky považujeme za veľmi dôležité pre ďalšie využitie a zdokonaľovanie modelu, keďže ďalší bádatelia získajú predstavu o podobnom alebo odlišnom písaní vlastných dokumentov, ktoré chcú prepisovať. Boli dosiahnuté hodnoty Train Set: 4,90 % a Validation Set: 5,30 %.Vytvorenie modelu SSM1 na serveri Transkribus trvalo dva dni, 5 hodín, 16 sekúnd, teda 53 hodín a 58 minút. Proces tvorby bol ukončený po 174 cykloch (epochách). Model SSM1 je prvým pokusom na Slovensku o vytvorenie nástroja, prostredníctvom ktorého by bolo možné automaticky sprístupniť určité typy ručne písaných dokumentov, ktoré sa podobajú fontom používaným na ich tvorbu. ID63569 Slovak Supermodel M1 (SSM1) nemožno v žiadnom prípade považovať za definitívny univerzálny model na prepis historických rukopisov slovenskej proveniencie všetkých typov a období. Rozmanitosť písiem a štýlov rukopisu je nekonečná a vytvorenie optimálneho agregovaného modelu je výzvou pre ďalších výskumníkov a nadšencov v nasledujúcich rokoch. Veríme však, že náš prvý agregovaný model SSM1 môže uľahčiť automatický prepis ďalších analogických rukopisov. Riešiteľský tím plánuje sprístupniť datasety v rámci udržateľnosti projektu v rokoch 2024-2028 prednostne na výskumné a vzdelávacie účely pre inštitúcie a výskumníkov, ktorí chcú prispieť k vytvoreniu modelu historických rukopisov v západoslovanských jazykoch, respektíve jazyky slovenského a českého pôvodu. Copyright: CC BY-NC-SA.Samozrejme, takýto automatický prepis neprinesie okamžite uspokojivé výsledky. Môže však uľahčiť „hrubý“ automatický prepis ďalších stránok krok za krokom, ich ručnú opravu na stav GT a následné použitie väčších súborov údajov GT na spresnenie nového modelu založeného na našom SSM1. Po vytvorení ďalších stoviek a tisícok stránok GT bude možné pristúpiť k tvorbe ďalších generácií nových modelov založených na SSM1. Vývoj by mohol pokračovať pre rukopisy s modelmi nových generácií SSM2, SSM3 atď. Respektíve pre tlače a sadzbu (P-Print), ako sú supermodely SSP1, SSP2, SSP3 atď. (Google translate)
创建时间:
2024-05-24



