five

分词-中文-新闻领域数据集PKU

收藏
魔搭社区2026-05-16 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/dingkun/chinese_word_segmentation_pku
下载链接
链接失效反馈
官方服务:
资源简介:
中文分词新闻领域PKU数据集

PKU Dataset for Chinese Word Segmentation in the News Domain
提供机构:
maas
创建时间:
2022-09-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是SIGHAN 2005中文分词评测中的PKU子集,专门用于简体中文分词任务,基于新闻领域数据标注而成。它包含19056条训练数据和1944条测试数据,常用于训练字符级序列标注模型,如BERT-CRF等,以提升中文分词性能。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务