five

KBLab/sucx3_ner

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KBLab/sucx3_ner
下载链接
链接失效反馈
官方服务:
资源简介:
SUCX 3.0 - NER数据集是一个针对瑞典语的结构预测数据集,主要用于命名实体识别和词性标注任务。数据集包含手动和自动两种标注方式,并提供了原始数据及多种小写处理版本。数据集被分为训练、开发和测试集,确保各部分标签分布的一致性。
提供机构:
KBLab
原始信息汇总

数据集概述

数据集描述

  • 名称: SUCX 3.0 - NER
  • 语言: 瑞典语
  • 许可证: CC BY 4.0
  • 多语言性: 单语种
  • 数据来源: 原始数据
  • 任务类别: 其他
  • 任务ID:
    • 命名实体识别
    • 词性标注
  • 标签: 结构预测

数据集总结

该数据集是对经典的SUC 3.0数据集的转换,引入了官方的训练-开发-测试分割。数据集包含三种类型的标签集:手动标注的词性(POS)、手动标注的命名实体识别(NER)和自动标注的NER。此外,还提供了一些数据的重混版本,部分或全部句子为小写。

支持的任务和排行榜

  • 词性标注
  • 命名实体识别

数据集结构

数据重混

  • original_tags: 包含手动NER标注
    • lower: 整个数据集无大小写
    • lower_mix: 部分数据集无大小写
    • lower_both: 每个实例同时包含大小写和无大小写
  • simple_tags: 包含自动NER标注
    • lower: 整个数据集无大小写
    • lower_mix: 部分数据集无大小写
    • lower_both: 每个实例同时包含大小写和无大小写

数据实例

每个实例包含:

  • id: 句子ID,可选后缀_lower表示已修改
  • tokens: 字符串列表,包含词条
  • pos_tags: 字符串列表,包含词性标签
  • ner_tags: 字符串列表,包含NER标签

数据分割

数据集分割 大小百分比 实例数量(原始标签)
训练 64% 46,026
开发 16% 11,506
测试 20% 14,383

simple_tags重混版本实例数量较少,因为需要匹配标签。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作