five

ltgoslo/norne

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ltgoslo/norne
下载链接
链接失效反馈
官方服务:
资源简介:
NorNE数据集是一个用于命名实体识别(NER)任务的挪威语数据集。它扩展了现有的挪威依赖树库的注释,包含了挪威语的两种官方书面标准(Bokmål和Nynorsk)。数据集包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件等。数据集提供了多个配置,每个配置都有不同版本的NER标签集。数据集的结构包括文本句子、语言、标识符、标记、词干、NER标签和POS标签列表。数据集分为训练集、验证集和测试集。

NorNE数据集是一个用于命名实体识别(NER)任务的挪威语数据集。它扩展了现有的挪威依赖树库的注释,包含了挪威语的两种官方书面标准(Bokmål和Nynorsk)。数据集包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件等。数据集提供了多个配置,每个配置都有不同版本的NER标签集。数据集的结构包括文本句子、语言、标识符、标记、词干、NER标签和POS标签列表。数据集分为训练集、验证集和测试集。
提供机构:
ltgoslo
原始信息汇总

数据集概述

基本信息

  • 数据集名称: NorNE: Norwegian Named Entities
  • 语言: 挪威语(Bokmål 和 Nynorsk)
  • 许可证: 其他
  • 多语言性: 单语种
  • 数据集大小: 10K<n<100K
  • 源数据: 原始数据
  • 任务类别: 词性标注
  • 任务ID: 命名实体识别

数据集配置

数据集包含多个配置,每个配置有不同的NER标签集和语言变体:

配置详情

  • bokmaal:

    • 特征:
      • idx: 字符串
      • lang: 字符串
      • text: 字符串
      • tokens: 字符串序列
      • lemmas: 字符串序列
      • pos_tags: 类别标签序列
      • ner_tags: 类别标签序列
    • 分割:
      • train: 15696个样本
      • validation: 2410个样本
      • test: 1939个样本
  • nynorsk:

    • 特征: 同上
    • 分割:
      • train: 14174个样本
      • validation: 1890个样本
      • test: 1511个样本
  • combined:

    • 特征: 同上
    • 分割:
      • train: 29870个样本
      • validation: 4300个样本
      • test: 3450个样本
  • bokmaal-7:

    • 特征: 同上,但ner_tags减少到7个标签
    • 分割: 同bokmaal
  • nynorsk-7:

    • 特征: 同上,但ner_tags减少到7个标签
    • 分割: 同nynorsk
  • combined-7:

    • 特征: 同上,但ner_tags减少到7个标签
    • 分割: 同combined
  • bokmaal-8:

    • 特征: 同上,但ner_tags增加到8个标签
    • 分割: 同bokmaal
  • nynorsk-8:

    • 特征: 同上,但ner_tags增加到8个标签
    • 分割: 同nynorsk
  • combined-8:

    • 特征: 同上,但ner_tags增加到8个标签
    • 分割: 同combined

数据字段

每个数据实例包含以下字段:

  • idx: 文本标识符
  • lang: 语言变体
  • text: 原始文本
  • tokens: 分词后的列表
  • lemmas: 词形还原后的列表
  • ner_tags: 命名实体标签列表
  • pos_tags: 词性标签列表

数据分割

数据集分为训练集、验证集和测试集,具体数量如下:

  • bokmaal:
    • train: 15696
    • validation: 2410
    • test: 1939
  • nynorsk:
    • train: 14174
    • validation: 1890
    • test: 1511
  • combined:
    • train: 29870
    • validation: 4300
    • test: 3450

数据实例

以下是一个bokmaal配置的训练集数据实例示例: python {idx: 000001, lang: bokmaal, lemmas: [lam, og, piggvar, på, bryllupsmeny], ner_tags: [0, 0, 0, 0, 0], pos_tags: [0, 9, 0, 5, 0], text: Lam og piggvar på bryllupsmenyen, tokens: [Lam, og, piggvar, på, bryllupsmenyen]}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作