msra_cws
收藏魔搭社区2025-12-29 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/msra_cws
下载链接
链接失效反馈官方服务:
资源简介:
# msra_cws 中文分词数据集
## 数据集概述
msra_cws MSRA数据集是面向新闻领域的中文分词数据集。
### 数据集简介
本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。
### 数据集的格式和结构
数据格式采用conll标准,数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的分词标签。一个具体case的例子如下:
```
“ S-CWS
种 B-CWS
菜 E-CWS
, S-CWS
也 S-CWS
有 S-CWS
烦 B-CWS
恼 E-CWS
, S-CWS
那 S-CWS
是 S-CWS
累 S-CWS
的 S-CWS
时 B-CWS
候 E-CWS
; S-CWS
```
## 数据集版权信息
Creative Commons Attribution 4.0 International
## 引用方式
```bib
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
```
# msra_cws 中文分词数据集
## 数据集概述
msra_cws 数据集(即MSRA数据集,全称微软亚洲研究院Microsoft Research Asia)是面向新闻领域的中文分词数据集。
### 数据集简介
本数据集包含训练集(14041条样本)、验证集(3250条样本)与测试集(3453条样本),实体类型涵盖地点(LOC,Location)、混合(MISC,Miscellaneous)、组织(ORG,Organization)以及人名(PER,Person)。
### 数据集格式与结构
本数据集采用CoNLL(Conference on Computational Natural Language Learning)标准格式,包含两列数据:第一列为输入语句的分词结果,第二列为各分词对应的标签。具体示例如下:
“ S-CWS
种 B-CWS
菜 E-CWS
, S-CWS
也 S-CWS
有 S-CWS
烦 B-CWS
恼 E-CWS
, S-CWS
那 S-CWS
是 S-CWS
累 S-CWS
的 S-CWS
时 B-CWS
候 E-CWS
; S-CWS
## 数据集版权信息
本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)进行授权。
## 引用方式
bib
@inproceedings{levow-2006-third,
title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition",
author = "Levow, Gina-Anne",
booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing",
month = jul,
year = "2006",
address = "Sydney, Australia",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/W06-0115",
pages = "108--117",
}
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



