five

surdan/nerel_short

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/surdan/nerel_short
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于NEREL语料库,主要用于命名实体识别任务。数据集中包含29种实体,每种实体都有B-(实体开始)和I-(实体内部)两种标记。README文件中详细列出了每种实体的出现频率,并提供了实体ID到标签的映射文件。
提供机构:
surdan
原始信息汇总

数据集概述

数据集来源

  • 基于NEREL语料库。

数据集内容

  • 包含29种实体类型,每种实体类型可以是实体的开始部分(B-)或内部部分(I-)。

实体频率统计

  • I-AGE: 284
  • B-AGE: 247
  • B-AWARD: 285
  • I-AWARD: 466
  • B-CITY: 1080
  • I-CITY: 39
  • B-COUNTRY: 2378
  • I-COUNTRY: 128
  • B-CRIME: 214
  • I-CRIME: 372
  • B-DATE: 2701
  • I-DATE: 5437
  • B-DISEASE: 136
  • I-DISEASE: 80
  • B-DISTRICT: 98
  • I-DISTRICT: 73
  • B-EVENT: 3369
  • I-EVENT: 2524
  • B-FACILITY: 376
  • I-FACILITY: 510
  • B-FAMILY: 27
  • I-FAMILY: 22
  • B-IDEOLOGY: 271
  • I-IDEOLOGY: 20
  • B-LANGUAGE: 32
  • I-LAW: 1196
  • B-LAW: 297
  • B-LOCATION: 242
  • I-LOCATION: 139
  • B-MONEY: 147
  • I-MONEY: 361
  • B-NATIONALITY: 437
  • I-NATIONALITY: 41
  • B-NUMBER: 1079
  • I-NUMBER: 328
  • B-ORDINAL: 485
  • I-ORDINAL: 6
  • B-ORGANIZATION: 3339
  • I-ORGANIZATION: 3354
  • B-PENALTY: 73
  • I-PENALTY: 104
  • B-PERCENT: 51
  • I-PERCENT: 37
  • B-PERSON: 5148
  • I-PERSON: 3635
  • I-PRODUCT: 48
  • B-PRODUCT: 197
  • B-PROFESSION: 3869
  • I-PROFESSION: 2598
  • B-RELIGION: 102
  • I-RELIGION: 1
  • B-STATE_OR_PROVINCE: 436
  • I-STATE_OR_PROVINCE: 154
  • B-TIME: 187
  • I-TIME: 529
  • B-WORK_OF_ART: 133
  • I-WORK_OF_ART: 194

实体ID映射

  • 实体ID到标签的映射文件为id_to_label_map.pickle,可通过以下代码加载: python import pickle

    with open(id_to_label_map.pickle, rb) as f: mapper = pickle.load(f)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作