Eesti keele ühendkorpus 2019 (.vrt vormingus)
收藏DataCite Commons2026-03-02 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/35501489a0d411eebb4773db10791bcf5772c42c6c73427c9f279ca2bc2a1c56
下载链接
链接失效反馈官方服务:
资源简介:
Korpuse alus on Eesti keele ühendkorpus 2013, mida Lexical Computing Ltd. uuendas 2017. ja 2019. aastal Eesti Keele Instituudi tellimusel. Korpus on jagatud allkorpustesse: * DOAJ (avatud lähtekoodiga eestikeelsed teadusajakirjad), * eesti keele koondkorpus (1990-2008), * tasakaalus korpus (koondkorpuse tasakaalustatud alamhulk), * eesti Vikipeedia 2017/2019, * eesti veeb 2013/2017/2019 (.ee-domeenid, blogid, foorumid, haridus, ilukirjandus, toit, tervis, ajakirjad, uudised, religioon, teadus, seks, ühiskond, sport). Veebikorpuste sisu on internetist alla laetud eestikeelsed veebilehed. Failid on .vrt-vormingus, mida kasutavad nt Korp, SketchEngine jt CQP-l põhinevad korpusepäringusüsteemid. Korpuse loomisel on kasutatud aadressil http://corpus.tools kirjeldatud programme: SpederLing, JustText, Chared, Onion and wiki2corpus. Korpus on lemmatiseeritud, märgendatud ja ühestatud analüsaatori EstNLTK 1.6 abil.
提供机构:
Center of Estonian Language Resources
创建时间:
2020-03-31



