icwb2-data 中文分词数据集
收藏阿里云天池2026-06-02 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/88809
下载链接
链接失效反馈官方服务:
资源简介:
icwb2-data 数据集是由北京大学、香港城市大学、台湾 CKIP, Academia Sinica 及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中 AS 和 CityU 为繁体中文数据集,PK 和 MSR 为简体中文数据集。
The icwb2-data dataset was jointly released by Peking University, City University of Hong Kong, Taiwan CKIP, Academia Sinica, and Microsoft Research Asia for training Chinese word segmentation models. Among them, AS and CityU are Traditional Chinese datasets, while PK and MSR are Simplified Chinese datasets.
提供机构:
阿里云天池
创建时间:
2021-01-21
搜集汇总
数据集介绍

背景与挑战
背景概述
icwb2-data是一个由多所高校和研究机构联合发布的中文分词数据集,旨在支持中文分词模型的训练。该数据集包含繁体中文和简体中文子集,并提供了训练数据、测试数据、黄金标准分割以及相关的评分工具。
以上内容由遇见数据集搜集并总结生成



