five

Croatian Twitter training corpus ReLDI-NormTagNER-hr 2.0

收藏
hdl.handle.net2025-01-16 收录
下载链接:
http://hdl.handle.net/11356/1170
下载链接
链接失效反馈
官方服务:
资源简介:
ReLDI-NormTagNER-hr 2.0 is a manually annotated corpus of Croatian tweets. It is meant as a gold-standard training and testing dataset for tokenisation, sentence segmentation, word normalisation, morphosyntactic tagging, lemmatisation and named entity recognition of non-standard Croatian. Each tweet is also annotated for its automatically assigned standardness levels (T = technical standardness, L = linguistic standardness). As an update to version 1.1, 2.0 adds annotations for named entities.

ReLDI-NormTagNER-hr 2.0乃一部由人工标注的克罗地亚推特语料库。此语料库旨在作为标准化训练与测试数据集,用于非标准克罗地亚语的自然语言处理任务,包括分词、句子切分、词形归一化、形态句法标注、词干提取以及命名实体识别。此外,每条推特还对其自动分配的标准化等级进行了标注(T代表技术标准化,L代表语言标准化)。作为对1.1版本的更新,2.0版本新增了对命名实体的标注。
提供机构:
hdl.handle.net
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作