five

Käsitsi lausestatud ja sõnestatud Eesti veebipuudepank

收藏
DataCite Commons2026-03-09 更新2026-05-03 收录
下载链接:
https://metashare.ut.ee/repository/browse/40babc2ea0d411eebb4773db10791bcf424929b050ad4d5282c76316017572e0
下载链接
链接失效反馈
官方服务:
资源简介:
Eesti veebipuudepanga tekstid (Muischnek et al., 2019), mis on annoteeritud käsitsi nii ortograafiliste kui süntaktiliste lausepiiridega, samuti on kontrollitud ja parandatud sõnestust. Lausete annoteerimisprotsessi kirjeldavad Sirts ja Peekman (2020), sõnestuse kontrolli kirjeldab Kairit Peekmani (2020) bakalaureusetöö. Andmete kasutamisel palume viidata Sirts ja Peekman (2020) artiklile. Muischnek, K., Müürisep, K., & Särg, D. D. (2019). CG Roots of UD Treebank of Estonian Web Language. In Proceedings of the NoDaLiDa 2019 Workshop on Constraint Grammar-Methods, Tools and Applications, 30 September 2019, Turku, Finland (No. 168, pp. 23-26). Linköping University Electronic Press. Peekman, K. (2020). Automaatse lausestamise ja sõnestamise hindamine uue meedia keele korpusel (bakalaureusetöö). Tartu Ülikool. Kättesaadav https://comserv.cs.ut.ee/ati_thesis/datasheet.php?id=69690&year=2020. Sirts, K., & Peekman, K. (2020). Evaluating Sentence Segmentation and Word Tokenization Systems on Estonian Web Texts. In Volume 328: Human Language Technologies – The Baltic Perspective, Frontiers in Artificial Intelligence and Applications, pages 174-181.
提供机构:
Center of Estonian Language Resources
创建时间:
2021-03-10
二维码
社区交流群
二维码
科研交流群
商业服务