Sina Weibo Dataset

github2021-11-05 更新2024-05-31 收录

下载链接：

https://github.com/KuroginQin/Sina_Weibo_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个通过网络爬虫获取的小规模新浪微博数据集，包含2000个用户的拓扑关系和内容信息。为了方便使用该数据集进行社团发现实验，还运行了Louvain算法确定了网络的社团数和社团成员。

A small-scale Sina Weibo dataset obtained through web crawling, containing the topological relationships and content information of 2000 users. To facilitate the use of this dataset for community discovery experiments, the Louvain algorithm was also run to determine the number of communities and community members in the network.

创建时间：

2017-09-24

原始信息汇总

数据集概述

数据集内容

用户数量：2,000
边数量：2,527
关键词数量：124,742
社团数量：28
最大模块度：0.8018

数据集结构

拓扑结构：通过有向边表示，每条边表示为二元组(源节点索引, 目标节点索引)。
内容信息：通过用户与关键词的所有权关系表示，使用二元组(用户索引, 关键词索引)。

数据文件格式

user_list.txt：用户列表，用户ID与用户昵称之间以Tab分隔符分隔。
topo.txt：拓扑结构，源用户索引与目标用户索引之间以Tab分隔符分隔。
content.txt：内容信息，以完整文本表示，使用“@@Content”和“@@ContentEnd”标记内容开始和结束。
dict.txt：关键词字典。
content_index.txt：内容信息索引，用户索引与关键词索引之间以Tab分隔符分隔。
community_membershp.txt：社团成员关系，用户索引与社团标签之间以Tab分隔符分隔。

数据集处理

使用Louvain算法对网络拓扑结构进行社团发现，得到社团数和社团成员关系。
对内容信息进行预处理，包括使用Ansj分词工具进行分词，去除停用词和异常词，生成关键词表示。

搜集汇总

数据集介绍

构建方式

Sina Weibo数据集是通过一个基于WebCollector框架的多线程爬虫程序构建的，该程序模拟登录新浪微博手机版网页（weibo.cn）进行数据爬取。为了规避新浪微博对爬虫的严格限制，研究者注册了五个微博账号，并通过Chrome浏览器的调试功能获取了这些账号的Cookie。爬取过程中，采用了广度优先搜索（BFS）策略，从种子用户“北京大学”开始，逐步爬取其关注列表中的用户及其微博内容。为了减少账号被冻结的风险，爬虫在每次爬取后随机休眠一段时间。此外，爬取的内容信息经过Ansj分词工具处理，去除了停用词和异常词，最终生成了关键词表示。

特点

该数据集包含了2000个新浪微博用户的拓扑结构和内容信息。拓扑结构通过有向边表示用户之间的关注关系，内容信息则通过用户与关键词的所有权关系表示。数据集还通过Louvain算法对网络进行了社团检测，生成了28个社团，并计算了最大模块度为0.8018。数据集的文件格式包括用户列表、拓扑结构、内容文本、关键词字典、内容索引以及社团成员关系，便于研究者进行社区发现和社交网络分析。

使用方法

该数据集适用于社交网络分析、社区检测和文本挖掘等研究领域。研究者可以通过user_list.txt文件获取用户的基本信息，topo.txt文件分析用户之间的关注关系，content.txt和content_index.txt文件进行文本内容分析。community_membership.txt文件则提供了用户的社团标签，便于进行社区结构的研究。使用该数据集时，建议结合Louvain算法等社区检测方法，进一步探索社交网络中的社团结构和用户行为模式。

背景与挑战

背景概述

Sina Weibo Dataset是一个由简单网络爬虫程序收集的小规模新浪微博数据集，涵盖了约2000名用户的拓扑结构和内容信息。该数据集由研究人员通过多线程爬取和模拟登录技术从新浪微博手机版网页（weibo.cn）获取数据，旨在为社交网络分析中的社团发现研究提供支持。数据集创建过程中，研究人员采用了Louvain算法对网络进行社团划分，并生成了社团成员关系。该数据集不仅为社交网络分析提供了宝贵的数据资源，还为研究用户行为、信息传播等提供了基础。

当前挑战

Sina Weibo Dataset在构建过程中面临多重挑战。首先，新浪微博对爬虫行为有严格的限制，频繁访问可能导致账号被冻结，研究人员通过注册多个账号并采用随机休眠策略来规避这一问题。其次，数据集的规模较小，仅包含2000名用户，可能无法全面反映新浪微博的整体网络结构。此外，数据预处理过程中，尽管采用了分词和停用词过滤等技术，但仍可能存在噪声数据，影响后续分析的准确性。最后，由于社交网络的动态性，数据集的时间敏感性较强，可能无法反映最新的用户行为变化。

常用场景

经典使用场景

Sina Weibo Dataset 数据集在社交网络分析领域具有广泛的应用，尤其是在社区发现和用户行为分析方面。通过该数据集，研究者可以深入探讨微博用户之间的关注关系及其内容传播模式。数据集中的拓扑结构和内容信息为分析用户社交网络的动态变化提供了基础，特别是在研究信息传播路径和用户影响力分布时，该数据集能够提供有力的支持。

衍生相关工作

基于 Sina Weibo Dataset 数据集，许多经典研究工作得以展开。例如，研究者利用该数据集提出了基于社区结构的社交网络影响力传播模型，进一步优化了信息传播预测算法。此外，该数据集还被用于开发基于用户生成内容的语义分析工具，推动了自然语言处理技术在社交媒体领域的应用。这些衍生工作不仅丰富了社交网络分析的理论体系，也为实际应用提供了技术支持。

数据集最近研究