five

Veebikorpus13 (etTenTen), toortekst

收藏
DataCite Commons2026-04-06 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/2f4325aaa0d411eebb4773db10791bcf44941621e4bf402d90700ed3548d368b
下载链接
链接失效反馈
官方服务:
资源简介:
etTenTen korpus (ehk Veebikorpus13) on internetist alla laetud eestikeelsete veebilehtede korpus. Korpuses on 270 miljonit sõna 686 000 veebilehelt. Korpuse tekstid korjas internetist ja teisendas utf-8 kodeeringus teksti kujule Vit Suchomel. Veebirobotiga laeti alla 1 173 702 veebilehte, kusjuures juba olemasolevate lehtede koopiad jäeti kõrvale; kõrvale jäeti ka lehed, mis on esindatud Eesti kirjakeele koondkorpuses. Kasutati Jan Pomikaleki doktoritöö käigus loodud programme jusText ja onion.
提供机构:
Center of Estonian Language Resources
创建时间:
2016-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作