Käsitsi lausestatud ja sõnestatud Eesti veebipuudepank
收藏DataCite Commons2026-03-09 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/40babc2ea0d411eebb4773db10791bcf424929b050ad4d5282c76316017572e0
下载链接
链接失效反馈官方服务:
资源简介:
Eesti veebipuudepanga tekstid (Muischnek et al., 2019), mis on annoteeritud käsitsi nii ortograafiliste kui süntaktiliste lausepiiridega, samuti on kontrollitud ja parandatud sõnestust. Lausete annoteerimisprotsessi kirjeldavad Sirts ja Peekman (2020), sõnestuse kontrolli kirjeldab Kairit Peekmani (2020) bakalaureusetöö. Andmete kasutamisel palume viidata Sirts ja Peekman (2020) artiklile. Muischnek, K., Müürisep, K., & Särg, D. D. (2019). CG Roots of UD Treebank of Estonian Web Language. In Proceedings of the NoDaLiDa 2019 Workshop on Constraint Grammar-Methods, Tools and Applications, 30 September 2019, Turku, Finland (No. 168, pp. 23-26). Linköping University Electronic Press. Peekman, K. (2020). Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel (bakalaureusetöö). Tartu Ülikool. Kättesaadav https://comserv.cs.ut.ee/ati_thesis/datasheet.php?id=69690&year=2020. Sirts, K., & Peekman, K. (2020). Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts. In Volume 328: Human Language Technologies – The Baltic Perspective, Frontiers in Artificial Intelligence and Applications, pages 174-181.
提供机构:
Center of Estonian Language Resources
创建时间:
2021-03-10



