five

Resume命名实体识别数据集

收藏
魔搭社区2026-05-23 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/resume_ner
下载链接
链接失效反馈
官方服务:
资源简介:
# Resume命名实体识别数据集 ## 数据集概述 Resume数据集是面向简历的中文命名实体识别数据集。 ### 数据集简介 本数据集包括训练集(3821)、验证集(463)、测试集(477),实体类型包括国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。 ### 数据集的格式和结构 数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下: ``` 1 O 9 O 7 O 0 O 年 O 出 O 生 O , O 经 B-PRO 济 I-PRO 学 I-PRO 硕 B-EDU 士 I-EDU , O 注 B-TITLE 册 I-TITLE 会 I-TITLE 计 I-TITLE 师 I-TITLE 、 O 注 B-TITLE 册 I-TITLE 税 I-TITLE 务 I-TITLE 师 I-TITLE 。 O ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International。 ## 引用方式 ```bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", } ```

# 简历(Resume)命名实体识别数据集 ## 数据集概述 简历(Resume)数据集是面向中文简历的命名实体识别(Named Entity Recognition, NER)数据集。 ### 数据集简介 本数据集包含训练集(3821条)、验证集(463条)、测试集(477条),实体类型涵盖国籍(CONT)、教育背景(EDU)、地名(LOC)、人名(NAME)、组织名(ORG)、专业(PRO)、民族(RACE)、职称(TITLE)。 ### 数据集的格式与结构 数据格式采用CoNLL标准,数据集分为两列:第一列为输入语句的分词结果,第二列为对应每个分词的命名实体类型标签。具体示例如下: 1 O 9 O 7 O 0 O 年 O 出 O 生 O , O 经 B-PRO 济 I-PRO 学 I-PRO 硕 B-EDU 士 I-EDU , O 注 B-TITLE 册 I-TITLE 会 I-TITLE 计 I-TITLE 师 I-TITLE 、 O 注 B-TITLE 册 I-TITLE 税 I-TITLE 务 I-TITLE 师 I-TITLE 。 O ## 数据集版权信息 知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International) ## 引用方式 bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", }
提供机构:
maas
创建时间:
2023-02-17
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个专门用于中文简历命名实体识别(NER)的数据集,包含训练集(3821条)、验证集(463条)和测试集(477条),标注了国籍、教育背景、地点、姓名、组织、职业、民族和职称等8种实体类型。数据格式遵循conll标准,以分词和对应实体标签的两列形式组织,适用于简历文本的实体识别任务研究与应用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务