book9命名实体识别数据集
收藏魔搭社区2026-04-21 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/iic/book9_ner
下载链接
链接失效反馈官方服务:
资源简介:
# book9命名实体识别数据集
## 数据集概述
Book9数据集是面向小说领域的中文命名实体识别数据集。
### 数据集简介
本数据集包括测试集(2551),实体类型包括招式名、地名、组织名、人名、头衔、武器名。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
“ O
怎 O
么 O
了 O
? O
” O
吴 B-PER
瑜 I-PER
好 O
奇 O
起 O
来 O
, O
“ O
难 O
道 O
洛 B-PER
仙 I-PER
儿 I-PER
姐 O
姐 O
要 O
回 O
来 O
了 O
? O
” O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```bib
@inproceedings{jia-etal-2020-entity,
title = "Entity Enhanced {BERT} Pre-training for {C}hinese {NER}",
author = "Jia, Chen and
Shi, Yuefeng and
Yang, Qinrong and
Zhang, Yue",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.518",
doi = "10.18653/v1/2020.emnlp-main.518",
pages = "6384--6396",
}
```
# Book9命名实体识别(Named Entity Recognition, NER)数据集
## 数据集概述
Book9数据集是面向小说领域的中文命名实体识别数据集。
### 数据集简介
本数据集包含测试集(2551),涵盖的实体类型包括招式名、地名、组织名、人名、头衔以及武器名。
### 数据集的格式和结构
数据格式采用CoNLL标准,数据集采用两列结构:第一列为输入语句的分词结果,第二列为各分词对应的命名实体类型标签。具体示例如下:
“ O
怎 O
么 O
了 O
? O
” O
吴 B-PER
瑜 I-PER
好 O
奇 O
起 O
来 O
, O
“ O
难 O
道 O
洛 B-PER
仙 I-PER
儿 I-PER
姐 O
姐 O
要 O
回 O
来 O
了 O
? O
” O
## 数据集版权信息
采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)。
## 引用方式
bib
@inproceedings{jia-etal-2020-entity,
title = "Entity Enhanced {BERT} Pre-training for {C}hinese {NER}",
author = "Jia, Chen and
Shi, Yuefeng and
Yang, Qinrong and
Zhang, Yue",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.emnlp-main.518",
doi = "10.18653/v1/2020.emnlp-main.518",
pages = "6384--6396",
}
提供机构:
maas
创建时间:
2022-10-21
搜集汇总
数据集介绍

背景与挑战
背景概述
book9命名实体识别数据集是一个中文小说领域的命名实体识别数据集,包含2551个测试案例,涵盖招式名、地名、组织名、人名、称号和武器名等实体类型。数据采用conll标准格式,分为分词和实体标签两列,适用于自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



