ltgoslo/norne
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ltgoslo/norne
下载链接
链接失效反馈官方服务:
资源简介:
NorNE数据集是一个用于命名实体识别(NER)任务的挪威语数据集。它扩展了现有的挪威依赖树库的注释,包含了挪威语的两种官方书面标准(Bokmål和Nynorsk)。数据集包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件等。数据集提供了多个配置,每个配置都有不同版本的NER标签集。数据集的结构包括文本句子、语言、标识符、标记、词干、NER标签和POS标签列表。数据集分为训练集、验证集和测试集。
NorNE数据集是一个用于命名实体识别(NER)任务的挪威语数据集。它扩展了现有的挪威依赖树库的注释,包含了挪威语的两种官方书面标准(Bokmål和Nynorsk)。数据集包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件等。数据集提供了多个配置,每个配置都有不同版本的NER标签集。数据集的结构包括文本句子、语言、标识符、标记、词干、NER标签和POS标签列表。数据集分为训练集、验证集和测试集。
提供机构:
ltgoslo
原始信息汇总
数据集概述
基本信息
- 数据集名称: NorNE: Norwegian Named Entities
- 语言: 挪威语(Bokmål 和 Nynorsk)
- 许可证: 其他
- 多语言性: 单语种
- 数据集大小: 10K<n<100K
- 源数据: 原始数据
- 任务类别: 词性标注
- 任务ID: 命名实体识别
数据集配置
数据集包含多个配置,每个配置有不同的NER标签集和语言变体:
配置详情
-
bokmaal:
- 特征:
idx: 字符串lang: 字符串text: 字符串tokens: 字符串序列lemmas: 字符串序列pos_tags: 类别标签序列ner_tags: 类别标签序列
- 分割:
train: 15696个样本validation: 2410个样本test: 1939个样本
- 特征:
-
nynorsk:
- 特征: 同上
- 分割:
train: 14174个样本validation: 1890个样本test: 1511个样本
-
combined:
- 特征: 同上
- 分割:
train: 29870个样本validation: 4300个样本test: 3450个样本
-
bokmaal-7:
- 特征: 同上,但
ner_tags减少到7个标签 - 分割: 同
bokmaal
- 特征: 同上,但
-
nynorsk-7:
- 特征: 同上,但
ner_tags减少到7个标签 - 分割: 同
nynorsk
- 特征: 同上,但
-
combined-7:
- 特征: 同上,但
ner_tags减少到7个标签 - 分割: 同
combined
- 特征: 同上,但
-
bokmaal-8:
- 特征: 同上,但
ner_tags增加到8个标签 - 分割: 同
bokmaal
- 特征: 同上,但
-
nynorsk-8:
- 特征: 同上,但
ner_tags增加到8个标签 - 分割: 同
nynorsk
- 特征: 同上,但
-
combined-8:
- 特征: 同上,但
ner_tags增加到8个标签 - 分割: 同
combined
- 特征: 同上,但
数据字段
每个数据实例包含以下字段:
idx: 文本标识符lang: 语言变体text: 原始文本tokens: 分词后的列表lemmas: 词形还原后的列表ner_tags: 命名实体标签列表pos_tags: 词性标签列表
数据分割
数据集分为训练集、验证集和测试集,具体数量如下:
- bokmaal:
train: 15696validation: 2410test: 1939
- nynorsk:
train: 14174validation: 1890test: 1511
- combined:
train: 29870validation: 4300test: 3450
数据实例
以下是一个bokmaal配置的训练集数据实例示例:
python
{idx: 000001,
lang: bokmaal,
lemmas: [lam, og, piggvar, på, bryllupsmeny],
ner_tags: [0, 0, 0, 0, 0],
pos_tags: [0, 9, 0, 5, 0],
text: Lam og piggvar på bryllupsmenyen,
tokens: [Lam, og, piggvar, på, bryllupsmenyen]}



