ju-bezdek/conll2003-SK-NER
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ju-bezdek/conll2003-SK-NER
下载链接
链接失效反馈官方服务:
资源简介:
这是CONLL2003数据集的斯洛伐克语翻译版本(通过Google翻译从英语翻译成斯洛伐克语)。注释大部分是自动完成的,使用了单词匹配脚本。未匹配的记录(10%)进行了手动注释。与原始的Conll2003数据集不同,该数据集仅包含NER标签。
提供机构:
ju-bezdek
原始信息汇总
数据集概述
数据集描述
- 名称: conll-2003-sk-ner
- 语言: 斯洛伐克语 (sk)
- 许可证: 未知
- 多语言性: 单语
- 大小: 10K<n<100K
- 任务类别: 命名实体识别 (NER), 词性标注 (POS)
- 标签: 结构预测
支持的任务和排行榜
- 任务: 命名实体识别
- 标签:
- 0: O
- 1: B-PER
- 2: I-PER
- 3: B-ORG
- 4: I-ORG
- 5: B-LOC
- 6: I-LOC
- 7: B-MISC
- 8: I-MISC
语言
- 斯洛伐克语 (sk)
数据集结构
- 数据分割: 训练集, 测试集, 验证集
数据集创建
源数据
- 来源: 扩展自 conll2003
- 链接: https://huggingface.co/datasets/conll2003
注释
注释过程
- 机器翻译
- 机器配对标签与反向翻译,以及硬编码规则(包括短语正则表达式匹配等)
- 手动注释无法自动匹配的记录



