five

NbAiLab/norne

收藏
Hugging Face2026-04-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NbAiLab/norne
下载链接
链接失效反馈
官方服务:
资源简介:
NorNE是一个手动标注的挪威语命名实体语料库,扩展了挪威依存树库的标注。该语料库包含挪威语的两种官方书面标准(Bokmål和Nynorsk),标注了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件等。数据集包含约60万个标记,并支持多种配置,包括单独的语言和组合语言。

NorNE is a manually annotated corpus of named entities which extends the annotation of the existing Norwegian Dependency Treebank. Comprising both of the official standards of written Norwegian (Bokmål and Nynorsk), the corpus contains around 600,000 tokens and annotates a rich set of entity types including persons, organizations, locations, geo-political entities, products, and events.
提供机构:
NbAiLab
原始信息汇总

数据集概述

数据集名称

  • 名称: NorNE: Norwegian Named Entities

数据集摘要

  • 摘要: NorNE是一个手动标注的命名实体语料库,扩展了现有的挪威依存树库的标注。该语料库包含约600,000个标记,并标注了包括人物、组织、地点、地理政治实体、产品、事件以及从名称派生的名词等丰富的实体类型。

支持的任务

  • 任务: 命名实体识别 (Named-Entity-Recognition) 和词性标注 (Part-of-Speech)

语言支持

  • 语言: 挪威语 Bokmål (bokmaal) 和 Nynorsk (nynorsk)

数据集结构

  • 数据实例: 每个实例包含文本句子、语言、标识符、标记、词形、以及相应的命名实体识别和词性标注列表。
  • 数据字段: 包括 idx (文本标识符)、lang (语言)、text (文本)、tokens (标记列表)、lemmas (词形列表)、ner_tags (命名实体标签列表)、pos_tags (词性标签列表)。
  • 数据分割: 包括 trainvalidationtest 三个分割。

数据集创建

  • 来源数据: 数据收集自挪威的博客、报纸、议会演讲和政府报告。
  • 标注类型: 包括人物、组织、地点、地理政治实体、产品、事件、派生和其他杂项。

附加信息

  • 数据集创建者: 由Schibsted Media Group、Språkbanken和Language Technology Group合作创建。
  • 许可证: 与挪威依存树库相同的许可证。
  • 引用信息: 论文《NorNE: Annotating Named Entities for Norwegian》描述了此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作