Resume命名实体识别数据集

Name: Resume命名实体识别数据集
Creator: maas
Published: 2026-05-23 20:34:05
License: 暂无描述

魔搭社区2026-05-23 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/iic/resume_ner

下载链接

链接失效反馈

官方服务：

资源简介：

# Resume命名实体识别数据集 ## 数据集概述 Resume数据集是面向简历的中文命名实体识别数据集。 ### 数据集简介本数据集包括训练集（3821）、验证集（463）、测试集（477），实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。 ### 数据集的格式和结构数据格式采用conll标准，数据分为两列，第一列是输入句中的词划分，第二列是每个词对应的命名实体类型标签。一个具体case的例子如下： ``` 1 O 9 O 7 O 0 O 年 O 出 O 生 O ， O 经 B-PRO 济 I-PRO 学 I-PRO 硕 B-EDU 士 I-EDU ， O 注 B-TITLE 册 I-TITLE 会 I-TITLE 计 I-TITLE 师 I-TITLE 、 O 注 B-TITLE 册 I-TITLE 税 I-TITLE 务 I-TITLE 师 I-TITLE 。 O ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ```bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", } ```

# 简历（Resume）命名实体识别数据集 ## 数据集概述简历（Resume）数据集是面向中文简历的命名实体识别（Named Entity Recognition, NER）数据集。 ### 数据集简介本数据集包含训练集（3821条）、验证集（463条）、测试集（477条），实体类型涵盖国籍（CONT）、教育背景（EDU）、地名（LOC）、人名（NAME）、组织名（ORG）、专业（PRO）、民族（RACE）、职称（TITLE）。 ### 数据集的格式与结构数据格式采用CoNLL标准，数据集分为两列：第一列为输入语句的分词结果，第二列为对应每个分词的命名实体类型标签。具体示例如下： 1 O 9 O 7 O 0 O 年 O 出 O 生 O ， O 经 B-PRO 济 I-PRO 学 I-PRO 硕 B-EDU 士 I-EDU ， O 注 B-TITLE 册 I-TITLE 会 I-TITLE 计 I-TITLE 师 I-TITLE 、 O 注 B-TITLE 册 I-TITLE 税 I-TITLE 务 I-TITLE 师 I-TITLE 。 O ## 数据集版权信息知识共享署名4.0国际许可协议（Creative Commons Attribution 4.0 International） ## 引用方式 bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", }

提供机构：

maas

创建时间：

2023-02-17

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个专门用于中文简历命名实体识别（NER）的数据集，包含训练集（3821条）、验证集（463条）和测试集（477条），标注了国籍、教育背景、地点、姓名、组织、职业、民族和职称等8种实体类型。数据格式遵循conll标准，以分词和对应实体标签的两列形式组织，适用于简历文本的实体识别任务研究与应用。

以上内容由遇见数据集搜集并总结生成