Resume命名实体识别数据集
收藏魔搭社区2026-05-23 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/resume_ner
下载链接
链接失效反馈官方服务:
资源简介:
# Resume命名实体识别数据集
## 数据集概述
Resume数据集是面向简历的中文命名实体识别数据集。
### 数据集简介
本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
1 O
9 O
7 O
0 O
年 O
出 O
生 O
, O
经 B-PRO
济 I-PRO
学 I-PRO
硕 B-EDU
士 I-EDU
, O
注 B-TITLE
册 I-TITLE
会 I-TITLE
计 I-TITLE
师 I-TITLE
、 O
注 B-TITLE
册 I-TITLE
税 I-TITLE
务 I-TITLE
师 I-TITLE
。 O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
```
# 简历(Resume)命名实体识别数据集
## 数据集概述
简历(Resume)数据集是面向中文简历的命名实体识别(Named Entity Recognition, NER)数据集。
### 数据集简介
本数据集包含训练集(3821条)、验证集(463条)、测试集(477条),实体类型涵盖国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。
### 数据集的格式与结构
数据格式采用CoNLL标准,数据集分为两列:第一列为输入语句的分词结果,第二列为对应每个分词的命名实体类型标签。具体示例如下:
1 O
9 O
7 O
0 O
年 O
出 O
生 O
, O
经 B-PRO
济 I-PRO
学 I-PRO
硕 B-EDU
士 I-EDU
, O
注 B-TITLE
册 I-TITLE
会 I-TITLE
计 I-TITLE
师 I-TITLE
、 O
注 B-TITLE
册 I-TITLE
税 I-TITLE
务 I-TITLE
师 I-TITLE
。 O
## 数据集版权信息
知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)
## 引用方式
bib
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
提供机构:
maas
创建时间:
2023-02-17
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专门用于中文简历命名实体识别(NER)的数据集,包含训练集(3821条)、验证集(463条)和测试集(477条),标注了国籍、教育背景、地点、姓名、组织、职业、民族和职称等8种实体类型。数据格式遵循conll标准,以分词和对应实体标签的两列形式组织,适用于简历文本的实体识别任务研究与应用。
以上内容由遇见数据集搜集并总结生成



