five

msra_cws

收藏
魔搭社区2025-12-29 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/msra_cws
下载链接
链接失效反馈
官方服务:
资源简介:
# msra_cws 中文分词数据集 ## 数据集概述 msra_cws MSRA数据集是面向新闻领域的中文分词数据集。 ### 数据集简介 本数据集包括训练集(14041)、验证集(3250)、测试集(3453),实体类型包括地点(LOC)、混合(MISC)、组织(ORG)、人名(PER)。 ### 数据集的格式和结构 数据格式采用conll标准,数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的分词标签。一个具体case的例子如下: ``` “ S-CWS 种 B-CWS 菜 E-CWS , S-CWS 也 S-CWS 有 S-CWS 烦 B-CWS 恼 E-CWS , S-CWS 那 S-CWS 是 S-CWS 累 S-CWS 的 S-CWS 时 B-CWS 候 E-CWS ; S-CWS ``` ## 数据集版权信息 Creative Commons Attribution 4.0 International ## 引用方式 ```bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", } ```

# msra_cws 中文分词数据集 ## 数据集概述 msra_cws 数据集(即MSRA数据集,全称微软亚洲研究院Microsoft Research Asia)是面向新闻领域的中文分词数据集。 ### 数据集简介 本数据集包含训练集(14041条样本)、验证集(3250条样本)与测试集(3453条样本),实体类型涵盖地点(LOC,Location)、混合(MISC,Miscellaneous)、组织(ORG,Organization)以及人名(PER,Person)。 ### 数据集格式与结构 本数据集采用CoNLL(Conference on Computational Natural Language Learning)标准格式,包含两列数据:第一列为输入语句的分词结果,第二列为各分词对应的标签。具体示例如下: “ S-CWS 种 B-CWS 菜 E-CWS , S-CWS 也 S-CWS 有 S-CWS 烦 B-CWS 恼 E-CWS , S-CWS 那 S-CWS 是 S-CWS 累 S-CWS 的 S-CWS 时 B-CWS 候 E-CWS ; S-CWS ## 数据集版权信息 本数据集采用知识共享署名4.0国际许可协议(Creative Commons Attribution 4.0 International)进行授权。 ## 引用方式 bib @inproceedings{levow-2006-third, title = "The Third International {C}hinese Language Processing Bakeoff: Word Segmentation and Named Entity Recognition", author = "Levow, Gina-Anne", booktitle = "Proceedings of the Fifth {SIGHAN} Workshop on {C}hinese Language Processing", month = jul, year = "2006", address = "Sydney, Australia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W06-0115", pages = "108--117", }
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作