five

社交网络结构及内容分析数据集(2020-2023年)

收藏
国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d5107d195d260905af9d76&type=1
下载链接
链接失效反馈
官方服务:
资源简介:
社交网络结构及内容分析数据集包括微博传播规模预测数据集、流行度预测社交媒体数据集和搜狐新闻文本分类数据集三个子数据集,共1.03GB。该数据集涵盖了从社交媒体平台获取的多样化数据,包括新浪微博和搜狐网的内容,通过预处理、去重、内容清洗和数据验证等步骤确保数据的可靠性和准确性。使用多线程和多模块的爬虫架构进行数据抓取,结合正则表达式和自然语言处理技术提高数据质量,旨在支持信息扩散、舆情分析和文本分类等领域的研究。 1)微博传播规模预测数据集为训练集和测试集,均包含源微博信息、转发微博信息两个文件,另外提供一份用户信息文件,包含数据集中微博用户的基本信息,所有文件均为csv格式。其中user_profile.csv包含用户信息,train.origin_weibo.csv和test.origin_weibo.csv包含了源微博信息,train.origin_weibo.csv和test.origin_weibo.csv包含了转发微博信息。 2)流行度预测社交媒体数据集包含用户肖像数据、训练数据、测试数据,以csv为格式。User.csv包含用户信息, Train_text.csv 和Test_text.csv为博文内容数据集。 3)搜狐新闻文本分类数据集共包括15个数据文件,其中文件名为数据类别:(1) 财经.csv;(2) 房产.csv;(3) 国际.csv;(4) 证券.csv;(5) 家居.csv;(6) 教育.csv;(7) 科技.csv;(8) 旅游.csv;(9) 民生.csv;(10) 汽车.csv;(11) 时尚.csv;(12) 时政.csv;(13) 体育.csv;(14) 游戏.csv;(15) 娱乐.csv。

The Social Network Structure and Content Analysis Dataset consists of three sub-datasets: the Weibo Propagation Scale Prediction Dataset, the Popularity Prediction Social Media Dataset, and the Sohu News Text Classification Dataset, with a total size of 1.03 GB. This dataset covers diverse data collected from social media platforms, including content from Sina Weibo and Sohu. The reliability and accuracy of the data are ensured through preprocessing, deduplication, content cleaning, data validation and other steps. A multi-threaded and multi-module crawler architecture is used for data scraping, combined with regular expressions and natural language processing technologies to improve data quality, aiming to support research in fields such as information diffusion, public opinion analysis and text classification. 1) The Weibo Propagation Scale Prediction Dataset includes training and test sets, each containing two files for source Weibo information and reposted Weibo information. An additional user information file is provided, which contains basic information of Weibo users in the dataset. All files are in CSV format. Among them, user_profile.csv contains user information, train.origin_weibo.csv and test.origin_weibo.csv contain source Weibo information, while train.origin_weibo.csv and test.origin_weibo.csv also contain reposted Weibo information. 2) The Popularity Prediction Social Media Dataset includes user profile data, training data and test data, all in CSV format. User.csv contains user information, while Train_text.csv and Test_text.csv are blog post content datasets. 3) The Sohu News Text Classification Dataset includes a total of 15 data files, where the file names correspond to the data categories: (1) Finance.csv; (2) Real Estate.csv; (3) International.csv; (4) Securities.csv; (5) Home Furnishing.csv; (6) Education.csv; (7) Technology.csv; (8) Tourism.csv; (9) People's Livelihood.csv; (10) Automobile.csv; (11) Fashion.csv; (12) Current Politics.csv; (13) Sports.csv; (14) Games.csv; (15) Entertainment.csv.
提供机构:
人民网科技(北京)有限公司
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个综合性的社交网络分析资源,包含微博传播规模预测、流行度预测和搜狐新闻文本分类三个子数据集,总规模1.03GB,共27个CSV格式文件。数据来源于新浪微博和搜狐网,经过预处理和自然语言处理技术清洗,确保准确可靠,适用于信息扩散、舆情分析和文本分类等研究领域。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务