ljos/norwegian_ner
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ljos/norwegian_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)任务的挪威语数据集,包含三种配置:bokmaal、nynorsk和samnorsk。每种配置都包含训练集、验证集和测试集。数据集的特征包括文本、词元、词性标签和命名实体标签。
该数据集是一个用于命名实体识别(NER)任务的挪威语数据集,包含三种配置:bokmaal、nynorsk和samnorsk。每种配置都包含训练集、验证集和测试集。数据集的特征包括文本、词元、词性标签和命名实体标签。
提供机构:
ljos
原始信息汇总
数据集概述
基本信息
- 数据集名称: Norwegian NER
- 语言: 挪威语
- 许可证: 未知
- 多语言性: 单语
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 词元分类
- 任务ID: 命名实体识别
- 美观名称: Norwegian NER
数据集结构
- 配置名称: bokmaal, nynorsk, samnorsk
- 特征:
- idx: 字符串类型
- text: 字符串类型
- tokens: 字符串序列
- lemmas: 字符串序列
- pos_tags: 序列类型,包含以下标签: NOUN, PUNCT, ADP, NUM, SYM, SCONJ, ADJ, PART, DET, CCONJ, PROPN, PRON, X, ADV, INTJ, VERB, AUX
- ner_tags: 序列类型,包含以下标签: O, B-OTH, I-OTH, E-OTH, S-OTH, B-ORG, I-ORG, E-ORG, S-ORG, B-PRS, I-PRS, E-PRS, S-PRS, B-GEO, I-GEO, E-GEO, S-GEO
数据分割
- 训练集:
- bokmaal: 15696个样本,9859760字节
- nynorsk: 14174个样本,9916338字节
- samnorsk: 34170个样本,22508485字节
- 验证集:
- bokmaal: 2410个样本,1475216字节
- nynorsk: 1890个样本,1257235字节
- samnorsk: 4300个样本,2732419字节
- 测试集:
- bokmaal: 1939个样本,1212939字节
- nynorsk: 1511个样本,1006733字节
- samnorsk: 3450个样本,2219640字节
数据集创建
- 标注创建者: 专家生成
- 语言创建者: 众包
数据集大小
- 下载大小:
- bokmaal: 8747760字节
- nynorsk: 8484545字节
- samnorsk: 19133049字节
- 数据集大小:
- bokmaal: 12547915字节
- nynorsk: 12180306字节
- samnorsk: 27460544字节



