five

pku_cws

收藏
魔搭社区2025-12-04 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/izhx404/pku_cws
下载链接
链接失效反馈
官方服务:
资源简介:
# conllpp命名实体识别数据集 ## 数据集概述 pku_cws 中文分词数据集是由北大计算语言学研究所标注发布的,使用于[BABERT](https://arxiv.org/abs/2210.15231)论文实验。 ### 数据集简介 TODO ### 数据集的格式和结构 数据格式采用conll标准,分词数据包括两列,第一列输入句中的词划分以及最后一列中每个词对应的分词标签。一个具体case的例子如下: ``` 共 B-CWS 同 E-CWS 发 B-CWS 展 E-CWS 的 S-CWS 新 S-CWS 世 B-CWS 纪 E-CWS 而 S-CWS 不 B-CWS 懈 I-CWS 努 I-CWS 力 E-CWS ! S-CWS ``` ## 数据集版权信息 CC BY-NC-SA 4.0 ## 引用方式 ```bib @misc{pkucws title = {现代汉语语料库加工规范——词语切分与词性标注}, author = {北京大学计算语言学研究所}, url = {http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf}, note = {The Second International Chinese Word Segmentation Bakeoff took place over the summer of 2005 and the results were presented at the 4th SIGHAN Workshop, held at IJCNLP'05, October 14-15.}, year = {2005} } ```

# conllpp命名实体识别数据集 ## 数据集概述 pku_cws中文分词数据集由北京大学计算语言学研究所标注并发布,用于[BABERT](https://arxiv.org/abs/2210.15231)论文的实验研究。 ### 数据集简介 TODO ### 数据集格式与结构 该数据集采用CoNLL标准(Conference on Computational Natural Language Learning)格式,分词数据包含两列:第一列为输入语句的词划分结果,最后一列为各分词单元对应的分词标签。以下为一个具体示例: 共 B-CWS 同 E-CWS 发 B-CWS 展 E-CWS 的 S-CWS 新 S-CWS 世 B-CWS 纪 E-CWS 而 S-CWS 不 B-CWS 懈 I-CWS 努 I-CWS 力 E-CWS ! S-CWS ## 数据集版权信息 CC BY-NC-SA 4.0 ## 引用方式 bib @misc{pkucws title = {现代汉语语料库加工规范——词语切分与词性标注}, author = {北京大学计算语言学研究所}, url = {http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdf}, note = {第二届国际中文分词评测(SIGHAN Bakeoff 2005)于2005年夏季开展,相关结果于2005年10月14日至15日在IJCNLP'05举办的第4届SIGHAN研讨会上发布。}, year = {2005} }
提供机构:
maas
创建时间:
2022-11-16
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
pku_cws是一个中文分词数据集,由北京大学计算语言学研究所标注发布,主要用于BABERT论文实验。数据采用conll标准格式,包含词划分和对应的分词标签(如B-CWS、E-CWS),适用于token-classification任务。数据集遵循CC BY-NC-SA 4.0版权协议,更新于2022年,大小为3.70MB。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作