NLPCC2016 新闻数据集
收藏超神经2023-09-12 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/9167
下载链接
链接失效反馈官方服务:
资源简介:
NLPCC2016 数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为 utf-8 编码,可被用于中文分词任务
The NLPCC2016 dataset differs from mainstream news datasets, as it incorporates a greater volume of informal texts originating from Sina Weibo. The training and test splits comprise Weibo posts covering diverse topics such as finance, sports, entertainment and other fields. This dataset is encoded in UTF-8 and can be employed for Chinese word segmentation tasks.
创建时间:
2023-04-26
搜集汇总
数据集介绍

背景与挑战
背景概述
NLPCC2016新闻数据集是一个18.29MB的中文资源,发布于三年前,其特点在于采用新浪微博的非正式文本,而非传统新闻数据。该数据集包含金融、体育、娱乐等多主题的微博内容,适用于中文分词任务。
以上内容由遇见数据集搜集并总结生成



