five

NLPCC2016 新闻数据集

收藏
超神经2023-09-12 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/9167
下载链接
链接失效反馈
官方服务:
资源简介:
NLPCC2016 数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为 utf-8 编码,可被用于中文分词任务

The NLPCC2016 dataset differs from mainstream news datasets, as it incorporates a greater volume of informal texts originating from Sina Weibo. The training and test splits comprise Weibo posts covering diverse topics such as finance, sports, entertainment and other fields. This dataset is encoded in UTF-8 and can be employed for Chinese word segmentation tasks.
创建时间:
2023-04-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
NLPCC2016新闻数据集是一个18.29MB的中文资源,发布于三年前,其特点在于采用新浪微博的非正式文本,而非传统新闻数据。该数据集包含金融、体育、娱乐等多主题的微博内容,适用于中文分词任务。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务