classla/hr500k
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/classla/hr500k
下载链接
链接失效反馈官方服务:
资源简介:
hr500k训练语料库包含506,457个克罗地亚语标记,这些标记在分词、句子分割、形态句法标注、词形还原、命名实体和依存句法等多个层次上进行了手动注释。数据集在句子级别上包含20159个训练样本、1963个验证样本和2672个测试样本。每个样本代表一个句子,并包含句子ID、句子文本、标记列表、词形还原列表、MULTEXT-East标签列表、UPOS标签列表、形态特征列表和IOB标签列表。部分数据还包含通用依存关系,共有7498个训练样本、649个验证样本和742个测试样本。数据集提供了三种配置:ner、upos和ud,如果没有指定配置,则默认为ner。
提供机构:
classla
原始信息汇总
数据集概述
基本信息
- 语言: 克罗地亚语 (hr)
- 许可证: CC-BY-SA-4.0
- 任务类别: 其他
- 任务ID:
- 词形还原
- 命名实体识别
- 词性标注
- 标签:
- 结构预测
- 规范化
- 分词
数据集内容
- 数据集名称: hr500k 训练语料库
- 数据量: 包含506,457个克罗地亚语标记,手动标注了分词、句子分割、形态句法标记、词形还原、命名实体和依赖语法等多个层次。
- 样本数量:
- 训练集: 20,159样本
- 验证集: 1,963样本
- 测试集: 2,672样本
- 样本特征:
- 句子ID (sent_id)
- 句子文本 (text)
- 词列表 (tokens)
- 词形列表 (lemmas)
- MULTEXT-East标签列表 (xpos_tags)
- UPOS标签列表 (upos_tags)
- 形态特征列表 (feats)
- IOB标签列表 (iob_tags)
- 额外配置:
- 通用依赖 (ud): 包含7,498训练样本, 649验证样本, 742测试样本
数据集配置
- 配置选项: ner, upos, ud
- 默认配置: ner
引用信息
- 引用文献:
- 作者: Nikola Ljubešić, Filip Klubička, Željko Agić, Ivo-Pavao Jazbec
- 标题: New Inflectional Lexicons and Training Corpora for Improved Morphosyntactic Annotation of Croatian and Serbian
- 会议: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)
- 年份: 2016
- 出版者: European Language Resources Association (ELRA)



