five

rjac/kaggle-entity-annotated-corpus-ner-dataset

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rjac/kaggle-entity-annotated-corpus-ner-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)的注释语料库,源自Groningen Meaning Bank(GMB)语料库。它包含多种类型的命名实体,如人名、地名和组织名,并带有特定的标签。数据集已修改以匹配CoNLL-2003数据集的结构。数据集的许可证是开放数据库许可证(ODbL)。
提供机构:
rjac
原始信息汇总

数据集概述

基本信息

数据集内容

  • 描述: 该数据集是从GMB(Groningen Meaning Bank)提取并经过标注,用于训练命名实体识别的分类器。
  • 实体类型及数量:
    • O: 1146068
    • geo-nam: 58388
    • org-nam: 48034
    • per-nam: 23790
    • gpe-nam: 20680
    • tim-dat: 12786
    • tim-dow: 11404
    • per-tit: 9800
    • per-fam: 8152
    • tim-yoc: 5290
    • tim-moy: 4262
    • per-giv: 2413
    • tim-clo: 891
    • art-nam: 866
    • eve-nam: 602
    • nat-nam: 300
    • tim-nam: 146
    • eve-ord: 107
    • per-ini: 60
    • org-leg: 60
    • per-ord: 38
    • tim-dom: 10
    • per-mid: 1
    • art-add: 1

实体类型解释

  • geo: 地理实体
  • org: 组织
  • per: 人物
  • gpe: 地缘政治实体
  • tim: 时间指示器
  • art: 人工制品
  • eve: 事件
  • nat: 自然现象

数据集修改

目标数据列

  • 列名: "tag" (在当前仓库中为 ner_tag)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作