Veebikorpus13 (etTenTen), toortekst
收藏DataCite Commons2026-04-06 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/2f4325aaa0d411eebb4773db10791bcf44941621e4bf402d90700ed3548d368b
下载链接
链接失效反馈官方服务:
资源简介:
etTenTen korpus (ehk Veebikorpus13) on internetist alla laetud eestikeelsete veebilehtede korpus.
Korpuses on 270 miljonit sõna 686 000 veebilehelt.
Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel.
Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemasolevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion.
提供机构:
Center of Estonian Language Resources
创建时间:
2016-06-28



