Words in -ica from the GIGAFIDA corpus/Besede na -ica iz korpusa Gigafida

NIAID Data Ecosystem2026-05-02 收录

下载链接：

https://zenodo.org/record/12605737

下载链接

链接失效反馈

官方服务：

资源简介：

Iz korpusa pisne standardne slovenščine Gigafida 2.0 (https://viri.cjvt.si/gigafida/, Logar Berginc idr. 2012) je bil pridobljen naključni vzorec besed, ki se končujejo na "ica". Iz vzorca so bile odstranjene besede, ki niso bile primerne za analizo, saj so bile i) ortografsko podobne besede, ki nimajo zvočne podobe na -ica, kot America, ii) dvozložne besede, katerih edino možno naglasno mesto je -íca, npr. žlica, iii) nadaljnje tvorjenke iz besed z zadnjo tvorbeno stopnjo s pripono -ica, npr. nepravica ali iv) nejasni primeri, kar je bilo preverjeno z intuicijami šestih naravnih govorcev slovenščine (vključno z obema avtorjema prispevka). Končni vzorec vsebuje 583 besed (frekvenca na milijon besed v korpusu: povprečje 10,4, mediana 3,2, modus: 1,8, standardni odklon: 26,1; najvišja frekvenca: 344,5/milijon, minimalna frekvenca: 0/milijon).Vse besede so bile razdeljene na morfeme. Po tem koraku je ostalo 23 besed, ki jih avtorja nista mogla gotovo razdeliti. Oblikovala sva nalogo določanja morfemskih mej, ki je vsebovala 23 nejasnih besed in 23 besed iz vzorca, katerih morfemska zgradba je bila gotovo razvidna. Nalogo so rešili štirje naravni govorci slovenščine z izobrazbo na področju jezikoslovja ali slovenistike. Na podlagi rezultatov sva izključila 19 od 23 nejasnih besed, in sicer kadar se sodbe anketirancev niso skladale s sodbami avtorjev prispevka ali kadar so bile sodbe anketirancev različne. Velik del izključenih besed so bili toponimi, ki pogosto ohranjajo arhaična stanja; še en pogost vzorec so bile tvorjenke s pripono -ica, katerih osnova je prikrita tvorjenka (npr. cesar-ica). Za potrebe čim boljšega nadzora nad posameznimi dejavniki sva torej iz vzorca odstranila vse primere, ki so ostali dvoumni. Vsem besedam, ki so ostale v vzorcu, sva označila mesto naglasa (1, če je naglasno mesto na priponi, sicer 0) in frekvenco.Stolpci v tabeli vsebujejo naslednje informacije: Stolpec A "številka": številka besede.Stolpec B "beseda": citatna oblike besede.Stolpec C "frekvenca na milijon besed": frekvenca besede v korpusu (na milijon besed).Stolpec D "naglas": 1, če je naglas na prvem zlogu niza -ica (npr. pravíca), 0, če je naglas drugje.Stolpec E "predvidljiv pomen: manjšalnica": 1, če ima -ica v besedi predvidljivi pomen manjšalnice (npr. mizica), 0 v vseh drugih primerih.Stolpec F "vidno kompleksna tvorjenka": 1, če beseda razen pripone -ica in korena vsebuje še druge morfeme (npr. pis-ar-n-ica), 0, če beseda vsebuje le koren in pipono -ica.Stolpec G "predvidljiv pomen: ženska ustreznica": 1, če ima beseda predvidljiv pomen ženske ustreznice (npr. članica), 0 v vseh drugih primerih.Stolpec H "koren ni prost": 1, če koren ni prost (npr. opica), 0 v vseh drugih primerih.Stolpec I "predvidoma izradikalne": 1, če je beseda predvidoma izradikalna, 0 v vseh drugih primerih.Stolpec J "skupine besed": Povzema 5 skupin besed iz stoplpca J z oštevilčenjem.Stolpec K "skupine besed – opisno": Besede so razdeljene na 5 skupin: 1) enostavna tvorjenka z idiosinkratičnim pomenom, vezani koren,2) enostavna tvorjenka z idiosinkratičnim pomenom, prosti koren,3) manjšalnica,4) ženska ustreznica,5) vidno kompleksna tvorjenka.

创建时间：

2024-08-01