Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid
收藏DataCite Commons2026-03-10 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/4547c7bfa0d411eebb4773db10791bcf142faa2513f94e4fabe1a0f710c1e3fa
下载链接
链接失效反馈官方服务:
资源简介:
Sagedusloendid on genereeritud Eesti keele ühendkorpuse 2021 (Estonian National Corpus 2021) allkorpuste alusel. Valikus on järgmised allkorpused: Veebikorpus 2021 (Web 2021), Vikipeedia 2021 (Wikipeadia 2021), DOAJ, Uudisvood 2014-2021 (Feeds 2014-2021), Kirjadus (Literature). Seega kajastab korpus kõige värskemat keelekasutust. Allkorpustes Uudisvood 2014-2021 ja Kirjadus on ka materjali, mis on pärit varasematest aastatest. Korpuse maht: - 944 907 713 sõnet - 7 756 705 erinevat lemmat - 857 784 lemmat üle sageduspiiri (ipm* 0,011, mis vastab ENC 2021 puhul sagedusele 10 või rohkem). Lemmad on töötlemata, mis tähendab, et - suur- ja väiketähelised kujud on ühendamata; - sagedused näitavad üksiksõna kasutust (ühendverbe, nimisõnafraase jm näidatakse osiste kaupa); - esineda võib võõrkeelseid sõnesid; - sõnaliiki pole arvestatud ('hall' A ja 'hall' S on koos)**. * ipm (instances per million) näitab lemma või sõne puhul promille ehk keskmist esinemist miljoni kohta. ** Eesti keele jaoks pole 'lempos' ehk lemma+sõnaliik oluline, sest sõnaliike eristab juba väliskuju ning 'hall' näitel jääks homonüümne hall+S (hallaöö, spordihall) ikkagi üheks lemmaks. Viita kui: Hein, Indrek 2022. Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid. Eesti Keele Instituut. DOI: 10.15155/3-00-0000-0000-0000-08D1FL
提供机构:
Center of Estonian Language Resources
创建时间:
2022-04-04



