pku_cws
收藏魔搭社区2025-12-04 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/pku_cws
下载链接
链接失效反馈官方服务:
资源简介:
# conllpp命名实体识别数据集
## 数据集概述
pku_cws 中文分词数据集是由北大计算语言学研究所标注发布的,使用于[BABERT](https://arxiv.org/abs/2210.15231)论文实验。
### 数据集简介
TODO
### 数据集的格式和结构
数据格式采用conll标准,分词数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的分词标签。一个具体case的例子如下:
```
共 B-CWS
同 E-CWS
发 B-CWS
展 E-CWS
的 S-CWS
新 S-CWS
世 B-CWS
纪 E-CWS
而 S-CWS
不 B-CWS
懈 I-CWS
努 I-CWS
力 E-CWS
! S-CWS
```
## 数据集版权信息
CC BY-NC-SA 4.0
## 引用方式
```bib
@misc{pkucws
title = {现代汉语语料库加工规范——词语切分与词性标注},
author = {北京大学计算语言学研究所},
url = {http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf},
note = {The Second International Chinese Word Segmentation Bakeoff took place over the summer of 2005 and the results were presented at the 4th SIGHAN Workshop, held at IJCNLP'05, October 14-15.},
year = {2005}
}
```
# conllpp命名实体识别数据集
## 数据集概述
pku_cws中文分词数据集由北京大学计算语言学研究所标注并发布,用于[BABERT](https://arxiv.org/abs/2210.15231)论文的实验研究。
### 数据集简介
TODO
### 数据集格式与结构
该数据集采用CoNLL标准(Conference on Computational Natural Language Learning)格式,分词数据包含两列:第一列为输入语句的词划分结果,最后一列为各分词单元对应的分词标签。以下为一个具体示例:
共 B-CWS
同 E-CWS
发 B-CWS
展 E-CWS
的 S-CWS
新 S-CWS
世 B-CWS
纪 E-CWS
而 S-CWS
不 B-CWS
懈 I-CWS
努 I-CWS
力 E-CWS
! S-CWS
## 数据集版权信息
CC BY-NC-SA 4.0
## 引用方式
bib
@misc{pkucws
title = {现代汉语语料库加工规范——词语切分与词性标注},
author = {北京大学计算语言学研究所},
url = {http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf},
note = {第二届国际中文分词评测(SIGHAN Bakeoff 2005)于2005年夏季开展,相关结果于2005年10月14日至15日在IJCNLP'05举办的第4届SIGHAN研讨会上发布。},
year = {2005}
}
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍

背景与挑战
背景概述
pku_cws是一个中文分词数据集,由北京大学计算语言学研究所标注发布,主要用于BABERT论文实验。数据采用conll标准格式,包含词划分和对应的分词标签(如B-CWS、E-CWS),适用于token-classification任务。数据集遵循CC BY-NC-SA 4.0版权协议,更新于2022年,大小为3.70MB。
以上内容由遇见数据集搜集并总结生成



