five

The CLASSLA-Stanza model for lemmatisation of non-standard Slovenian 2.1

收藏
SSH Open MarketPlace2025-07-04 更新2025-07-05 收录
下载链接:
https://marketplace.sshopencloud.eu/dataset/Z4BoiM
下载链接
链接失效反馈
官方服务:
资源简介:
The model for lemmatisation of non-standard Slovenian was built with the [CLASSLA-Stanza tool](https://github.com/clarinsi/classla) by training on the [SUK training corpus](http://hdl.handle.net/11356/1747) and on the [Janes-Tag corpus](http://hdl.handle.net/11356/1732) using the [CLARIN.SI-embed.sl word embeddings](http://hdl.handle.net/11356/1204) expanded with the [MaCoCu-sl Slovene web corpus](http://hdl.handle.net/11356/1517). These corpora were additionally augmented for handling missing diacritics by repeating parts of the corpora with diacritics removed. The estimated F1 of the lemma annotations is ~91.45. The model is available for download from the CLARIN.SI repository.

非标准斯洛文尼亚语词形还原(lemmatisation)模型依托[CLASSLA-Stanza工具](https://github.com/clarinsi/classla)构建,以[SUK训练语料库](http://hdl.handle.net/11356/1747)与[Janes-Tag语料库](http://hdl.handle.net/11356/1732)作为训练语料,并结合经[MaCoCu-sl斯洛文尼亚网页语料库](http://hdl.handle.net/11356/1517)扩充的[CLARIN.SI-embed.sl词嵌入](http://hdl.handle.net/11356/1204)完成训练。为处理变音符号缺失的问题,通过复制部分移除变音符号后的语料,对上述语料库进行了额外扩充。该模型的词元标注F1值约为91.45。 本模型可从CLARIN.SI资源库下载获取。
创建时间:
2025-07-04
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作