toy_msra_hf
收藏魔搭社区2025-11-14 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/toy_msra_hf
下载链接
链接失效反馈官方服务:
资源简介:
# MSRA命名实体识别数据集
## 数据集概述
MSRA数据集是面向新闻领域的中文命名实体识别数据集。数据集不完整,仅供测试使用。
### 数据集简介
本数据集包括训练集(46364)、测试集(4365),实体类型包括地名(LOC)、人名(NAME)、组织名(ORG)。
### 数据集的格式和结构
数据格式采用conll标准,数据分为两列,第一列是输入句中的词划分,第二列是每个词对应的命名实体类型标签。一个具体case的例子如下:
```
1 O
9 O
9 O
7 O
年 O
1 O
1 O
月 O
1 O
日 O
( O
新 B-ORG
华 I-ORG
社 I-ORG
北 B-LOC
京 I-LOC
1 O
1 O
月 O
1 O
日 O
电 O
) O
```
## 数据集版权信息
Creative Commons Attribution 4.0 International。
## 引用方式
```
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
```
# MSRA命名实体识别数据集
## 数据集概述
MSRA数据集是面向新闻领域的中文命名实体识别(Named Entity Recognition,NER)数据集,该数据集并不完整,仅可用于测试用途。
### 数据集简介
本数据集包含训练集(样本量46364)与测试集(样本量4365),涵盖三类命名实体:地名(Location,LOC)、人名(Name,NAME)与组织名(Organization,ORG)。
### 数据集格式与结构
本数据集采用CoNLL标准格式,数据分为两列:第一列为输入文本的分词结果,第二列为对应分词的命名实体类型标签。以下为一则具体示例:
1 O
9 O
9 O
7 O
年 O
1 O
1 O
月 O
1 O
日 O
( O
新 B-ORG
华 I-ORG
社 I-ORG
北 B-LOC
京 I-LOC
1 O
1 O
月 O
1 O
日 O
电 O
) O
## 数据集版权信息
知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)
## 引用方式
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
提供机构:
maas
创建时间:
2022-12-10



