five

PKU 简体中文分词数据集

收藏
超神经2024-02-23 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/29168
下载链接
链接失效反馈
官方服务:
资源简介:
SIGHAN 2005 数据集国际中文自动分词评测(简称 SIGHAN 评测)整合多个机构的分词数据集构成。该数据集由中国微软研究所、北京大学、香港城市大学、台湾中央研究院联合发布,用以进行中文分词模型的训练与评测。其中 PKU 为简体中文分词数据集。

The SIGHAN 2005 International Chinese Word Segmentation Evaluation (referred to as SIGHAN Evaluation for short) is a benchmark dataset constructed by integrating word segmentation corpora from multiple institutions. It was jointly released by Microsoft Research Asia, Peking University, City University of Hong Kong and Academia Sinica, Taiwan, and is used for training and evaluating Chinese word segmentation models. Among them, the PKU subset is a simplified Chinese word segmentation dataset.
创建时间:
2024-01-29
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务