five

ju-bezdek/conll2003-SK-NER

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ju-bezdek/conll2003-SK-NER
下载链接
链接失效反馈
官方服务:
资源简介:
这是CONLL2003数据集的斯洛伐克语翻译版本(通过Google翻译从英语翻译成斯洛伐克语)。注释大部分是自动完成的,使用了单词匹配脚本。未匹配的记录(10%)进行了手动注释。与原始的Conll2003数据集不同,该数据集仅包含NER标签。
提供机构:
ju-bezdek
原始信息汇总

数据集概述

数据集描述

  • 名称: conll-2003-sk-ner
  • 语言: 斯洛伐克语 (sk)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 任务类别: 命名实体识别 (NER), 词性标注 (POS)
  • 标签: 结构预测

支持的任务和排行榜

  • 任务: 命名实体识别
  • 标签:
    • 0: O
    • 1: B-PER
    • 2: I-PER
    • 3: B-ORG
    • 4: I-ORG
    • 5: B-LOC
    • 6: I-LOC
    • 7: B-MISC
    • 8: I-MISC

语言

  • 斯洛伐克语 (sk)

数据集结构

  • 数据分割: 训练集, 测试集, 验证集

数据集创建

源数据

  • 来源: 扩展自 conll2003
  • 链接: https://huggingface.co/datasets/conll2003

注释

注释过程

  • 机器翻译
  • 机器配对标签与反向翻译,以及硬编码规则(包括短语正则表达式匹配等)
  • 手动注释无法自动匹配的记录
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作