Eesti keele A1-C1 õpikute lausete korpus 2020 (arhiveeritud)
收藏DataCite Commons2026-03-02 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/43067858a0d411eebb4773db10791bcf45c26e122b5240868c00b5a4a1d4808d
下载链接
链接失效反馈官方服务:
资源简介:
Korpuse aluseks on Eesti keele A1-C1 õpikute korpus 2018 (DOI:10.15155/3-00-0000-0000-0000-071E9L), mille morfoloogiline märgendus on uuendatud. Nimetatud korpuse aluseks oli omakorda Eesti keele A1-C1 õpikute korpus 2017, mis koosnes ca 200 000 sõnest ja ca 24 000 lausest. Eesti keele A1-C1 õpikute korpuse 2017 sisust ekstraheeritud täislausetest loodigi Eesti keele A1-C1 õpikute korpus 2018, millega kaasnes käsitsi kontroll (sisse jäeti semantiliselt terviklikud laused, kontekstisidusad ja valesti tuvastatud laused eemaldati). Korpuse morfoloogiline märgendus on uuendatud, kasutatud on estNLTK 1.6 versiooni. Korpus sisaldab A1, A2, B1, B2 ja C1 keeleoskustasemega eesti keele õppijatele suunatud õpikute tekstidest eraldatud täislauseid. Korpuses on märgendatud tekstistruktuuri üksused lause ja osalause . Korpus sisaldab ka korduvaid lauseid. Kõik laused on varustautd allika ja keeleoskustasemega. Korpuses on kaheksa õpikut: Pesti, M., Ahi, H. (2015). E nagu Eesti: eesti keele õpik algajatele. Tallinn: Kiri-Mari Kirjastus. Kitsnik, M., Kingisepp, L. (2002). Avatud uksed: eesti keele õppekomplekt kesk- ja kõrgtasemele: õpperaamat. Tallinn: TEA Kirjastus. Kitsnik, M. (2012). Eesti keele õpik: B1, B2. Tallinn: M. Kitsnik. Pesti, M., Ahi, H. (2015). Eesti keele õpik A1. Tallinn: Justiitsministeerium. Pesti, M., Ahi, H. (2012). Eesti keele õpik A2. Tallinn: M. Pesti. Pesti, M., Ahi, H. (2015). Eesti keele õpik B1. Tallinn: Justiitsministeerium. Sooneste, M. (2007). Eesti keele õpik: vene õppekeelega gümnaasium: kesk- ja kõrgtase. Tallinn: Varrak. Rammo, S., Teral, M., Klaas-Lang, B., Allik, M. (2012). Keel selgeks!: eesti keele õpik täiskasvanutele. Tallinn: Avita. Seitse esimest õpikut digitaliseeriti Eesti Rahvusraamatkogu digitaliseerimiskeskus. Sirje Rammo jt (2012) õpikust on kasutatud käsikirja doc-faile. Korpus on UTF-8 kodeeringus. Korpus on lemmatiseeritud, märgendatud ja ühestatud analüsaatori EstNLTK abil. Korpus loodi Eesti Keele Instituudi ja Lexical Computing Ltd. (https://www.sketchengine.co.uk/) koostöös.
提供机构:
Center of Estonian Language Resources
创建时间:
2020-03-31



