rjac/kaggle-entity-annotated-corpus-ner-dataset
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rjac/kaggle-entity-annotated-corpus-ner-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于命名实体识别(NER)的注释语料库,源自Groningen Meaning Bank(GMB)语料库。它包含多种类型的命名实体,如人名、地名和组织名,并带有特定的标签。数据集已修改以匹配CoNLL-2003数据集的结构。数据集的许可证是开放数据库许可证(ODbL)。
提供机构:
rjac
原始信息汇总
数据集概述
基本信息
- 日期: 2022-07-10
- 文件: ner_dataset.csv
- 来源: Kaggle entity annotated corpus
- 许可证: odbl
数据集内容
- 描述: 该数据集是从GMB(Groningen Meaning Bank)提取并经过标注,用于训练命名实体识别的分类器。
- 实体类型及数量:
- O: 1146068
- geo-nam: 58388
- org-nam: 48034
- per-nam: 23790
- gpe-nam: 20680
- tim-dat: 12786
- tim-dow: 11404
- per-tit: 9800
- per-fam: 8152
- tim-yoc: 5290
- tim-moy: 4262
- per-giv: 2413
- tim-clo: 891
- art-nam: 866
- eve-nam: 602
- nat-nam: 300
- tim-nam: 146
- eve-ord: 107
- per-ini: 60
- org-leg: 60
- per-ord: 38
- tim-dom: 10
- per-mid: 1
- art-add: 1
实体类型解释
- geo: 地理实体
- org: 组织
- per: 人物
- gpe: 地缘政治实体
- tim: 时间指示器
- art: 人工制品
- eve: 事件
- nat: 自然现象
数据集修改
- 修改: ner_dataset.csv 被修改以具有与 CoNLL-2003 数据集 相似的数据结构。
目标数据列
- 列名: "tag" (在当前仓库中为 ner_tag)



