nlpcc_gec
收藏魔搭社区2025-12-09 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/nlpcc_gec
下载链接
链接失效反馈官方服务:
资源简介:
# MSRA命名实体识别数据集
## 数据集概述
MSRA数据集是面向新闻领域的中文命名实体识别数据集。数据集不完整,仅供测试使用。
### 数据集简介
本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
1 O
9 O
9 O
7 O
年 O
1 O
1 O
月 O
1 O
日 O
( O
新 B-ORG
华 I-ORG
社 I-ORG
北 B-LOC
京 I-LOC
1 O
1 O
月 O
1 O
日 O
电 O
) O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
```
# MSRA命名实体识别数据集
## 数据集概述
MSRA数据集为面向新闻领域的中文命名实体识别(Named Entity Recognition, NER)数据集,本数据集存在数据完整性缺陷,仅可用于测试场景。
### 数据集简介
本数据集包含训练集(46364条)与测试集(4365条),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)三类。
### 数据集格式与结构
数据采用CoNLL标准格式,数据集分为两列:第一列为输入句子的分词结果,第二列为每个分词对应的命名实体类型标签。以下为一个具体示例:
1 O
9 O
9 O
7 O
年 O
1 O
1 O
月 O
1 O
日 O
( O
新 B-ORG
华 I-ORG
社 I-ORG
北 B-LOC
京 I-LOC
1 O
1 O
月 O
1 O
日 O
电 O
) O
## 数据集版权信息
采用Creative Commons Attribution 4.0 International许可协议。
## 引用方式
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
提供机构:
maas
创建时间:
2023-06-13



