microblogPCU数据
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64edc997bb16e07753c35c7f&type=1
下载链接
链接失效反馈官方服务:
资源简介:
MicroblogPCU数据集是一个公开的中文微博数据集,可用于用户行为识别任务和文本分类任务的研究。数据集包含来自2,450个用户的11,026个微博帖子,其中每个帖子被标记为个人、社交或娱乐中的一个或多个类别。该数据集还提供了一个多标签分类数据集,使研究人员可以更好地理解微博文本的多样性和复杂性。此外,该数据集提供了单独的测试集,可以用于评估分类算法的性能。该数据集是一个非常有用的数据集,可以用于社交网络分析、用户行为分析和用户建模等研究领域,同时也可以用于机器学习方法研究,是一个具有很高的可复用性价值的数据集。
The MicroblogPCU dataset is a publicly available Chinese microblog dataset intended for research on user behavior recognition and text classification tasks. It contains 11,026 microblog posts from 2,450 users, with each post annotated with one or more of the three categories: personal, social, or entertainment. As a multi-label classification dataset, it enables researchers to better understand the diversity and complexity of microblog texts. In addition, a dedicated test set is provided for evaluating the performance of classification algorithms. As a highly reusable resource, this dataset is valuable for research fields such as social network analysis, user behavior analysis, user modeling, as well as machine learning method studies.
提供机构:
成都索贝数码科技股份有限公司
搜集汇总
数据集介绍

背景与挑战
背景概述
microblogPCU数据是一个公开的中文微博数据集,包含2,450个用户的11,026个帖子,每个帖子被标记为个人、社交或娱乐中的一个或多个类别,适用于多标签分类任务。该数据集提供了单独的测试集,可用于评估分类算法性能,支持社交网络分析、用户行为识别和机器学习研究,具有较高的可复用性价值。
以上内容由遇见数据集搜集并总结生成



