icwb2-data 中文分词数据集
收藏超神经2023-09-12 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/9101
下载链接
链接失效反馈官方服务:
资源简介:
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
The icwb2-data dataset was jointly released by Peking University, City University of Hong Kong, CKIP of Taiwan, Academia Sinica, and Microsoft Research China for training Chinese word segmentation models. Among them, AS and CityU are Traditional Chinese datasets, while PK and MSR are Simplified Chinese datasets.
创建时间:
2023-04-26
搜集汇总
数据集介绍

背景与挑战
背景概述
icwb2-data是由北京大学、香港城市大学、台湾CKIP、Academia Sinica及中国微软研究所联合发布的中文分词数据集,包含简体和繁体中文数据,用于中文分词模型的训练。数据集大小为50.2 MB,发布于3年前。
以上内容由遇见数据集搜集并总结生成



