KBLab/sucx3_ner
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/KBLab/sucx3_ner
下载链接
链接失效反馈官方服务:
资源简介:
SUCX 3.0 - NER数据集是一个针对瑞典语的结构预测数据集,主要用于命名实体识别和词性标注任务。数据集包含手动和自动两种标注方式,并提供了原始数据及多种小写处理版本。数据集被分为训练、开发和测试集,确保各部分标签分布的一致性。
提供机构:
KBLab
原始信息汇总
数据集概述
数据集描述
- 名称: SUCX 3.0 - NER
- 语言: 瑞典语
- 许可证: CC BY 4.0
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 其他
- 任务ID:
- 命名实体识别
- 词性标注
- 标签: 结构预测
数据集总结
该数据集是对经典的SUC 3.0数据集的转换,引入了官方的训练-开发-测试分割。数据集包含三种类型的标签集:手动标注的词性(POS)、手动标注的命名实体识别(NER)和自动标注的NER。此外,还提供了一些数据的重混版本,部分或全部句子为小写。
支持的任务和排行榜
- 词性标注
- 命名实体识别
数据集结构
数据重混
original_tags: 包含手动NER标注lower: 整个数据集无大小写lower_mix: 部分数据集无大小写lower_both: 每个实例同时包含大小写和无大小写
simple_tags: 包含自动NER标注lower: 整个数据集无大小写lower_mix: 部分数据集无大小写lower_both: 每个实例同时包含大小写和无大小写
数据实例
每个实例包含:
id: 句子ID,可选后缀_lower表示已修改tokens: 字符串列表,包含词条pos_tags: 字符串列表,包含词性标签ner_tags: 字符串列表,包含NER标签
数据分割
| 数据集分割 | 大小百分比 | 实例数量(原始标签) |
|---|---|---|
| 训练 | 64% | 46,026 |
| 开发 | 16% | 11,506 |
| 测试 | 20% | 14,383 |
simple_tags重混版本实例数量较少,因为需要匹配标签。



