Medium社交网络匿名数据集
收藏github2021-03-01 更新2024-05-31 收录
下载链接:
https://github.com/lifei96/Medium-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1,075,983个Medium社交网络用户的匿名数据,包括社交图和每个用户的个人资料/活动数据。用户名已被数值ID匿名化,数据集于2016年8月收集。
This dataset comprises anonymized data from 1,075,983 Medium social network users, including social graphs and profile/activity data for each user. Usernames have been anonymized with numerical IDs, and the dataset was collected in August 2016.
创建时间:
2018-01-31
原始信息汇总
数据集概述
基本信息
- 名称: An anonymized dataset of 1+ million users in the Medium social network
- 包含用户数: 1,075,983
- 数据收集时间: August 2016
- 数据内容: 包括社交图和用户个人资料/活动数据
- 用户名处理: 使用数值ID进行匿名化
文件详情
- nodes.txt:
- 内容: 用户ID列表(0 ~ 1,075,982)
- 格式: 每行一个用户ID
- edges.txt:
- 内容: 有向社交图的边列表(30,026,896条边)
- 格式: 每行表示一条有向边,如"0 1"表示用户0关注用户1
- user_data.csv:
- 内容: 用户个人资料/活动数据,跨站点链接选项及关联的Twitter资料数据
- 格式: 每行代表一个用户的数据
- 列描述:
- ID: 用户匿名ID
- createdAt: 用户注册时间Unix时间戳
- followers: 关注者数量
- following: 关注数量
- bio: 是否有个人简介(1为是,0为否)
- posts: 文章数量
- responses: 回复数量
- recommends: 推荐数量(已替换为“claps”功能)
- highlights: 高亮数量
- facebook: 是否启用Facebook跨站点链接(1为启用,0为未启用)
- twitter: 是否启用Twitter跨站点链接(1为启用,0为未启用)
- twitter_followers: 关联Twitter账号的关注者数量
- twitter_followings: 关联Twitter账号的关注数量
- twitter_bio: 关联Twitter账号是否有个人简介(1为是,0为否)
- twitter_tweets: 关联Twitter账号的推文数量
- twitter_likes: 关联Twitter账号的点赞数量
- twitter_lists: 关联Twitter账号的列表数量
许可证
- 类型: Creative Commons Attribution Share Alike 4.0
引用信息
- 论文: Understanding Service Integration of Online Social Networks: A Data-Driven Study
- 会议: IEEE International Conference on Pervasive Computing and Communications Workshops, 2018
- 作者: F. Li, Y. Chen, R. Xie, F. Ben Abdesslem and A. Lindgren
搜集汇总
数据集介绍

构建方式
Medium社交网络匿名数据集的构建基于2016年8月对Medium平台上1,075,983名用户的数据采集。数据采集过程中,用户的真实用户名被匿名化为数字ID,以确保隐私保护。数据集包含三个主要文件:`nodes.txt`记录了所有用户的匿名ID,`edges.txt`记录了用户之间的有向社交关系,`user_data.csv`则包含了用户的个人资料及活动数据,如注册时间、关注者数量、发布的文章数量等。此外,部分用户的数据还包含了跨平台链接选项及其关联的Twitter账户信息。
特点
该数据集的特点在于其规模庞大且结构清晰,涵盖了超过100万用户及其社交关系。数据集不仅提供了用户的社交图谱,还详细记录了每位用户的个人资料及活动数据,如注册时间、关注者数量、发布的文章数量等。此外,数据集还包含了用户跨平台链接选项及其关联的Twitter账户信息,为研究社交网络服务整合提供了丰富的数据支持。数据的匿名化处理确保了用户隐私的保护,同时保留了数据的可用性和研究价值。
使用方法
使用该数据集时,研究者可以通过`nodes.txt`文件获取所有用户的匿名ID,并通过`edges.txt`文件分析用户之间的社交关系。`user_data.csv`文件则提供了详细的用户个人资料及活动数据,可用于分析用户行为模式、社交网络结构及其跨平台链接行为。研究者可以利用这些数据进行社交网络分析、用户行为建模以及跨平台服务整合研究。数据集的使用需遵循Creative Commons Attribution Share Alike 4.0许可协议,确保数据的合法使用和共享。
背景与挑战
背景概述
Medium社交网络匿名数据集由Fei Li、Yang Chen等研究人员于2018年发布,旨在深入探讨在线社交网络中的服务整合问题。该数据集涵盖了2016年8月期间收集的1,075,983名Medium用户的社交图谱和活动数据,用户信息通过数字ID进行匿名化处理。该研究通过分析用户在不同平台(如Twitter)上的跨站点链接行为,揭示了社交网络服务整合的复杂性和多样性。这一数据集为社交网络分析、用户行为研究以及跨平台服务整合提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
Medium社交网络匿名数据集在解决社交网络服务整合问题时面临多重挑战。首先,数据集的构建过程中,由于网络爬虫技术的限制,部分用户数据未能完整获取,导致数据缺失问题。其次,社交图谱的规模庞大,包含超过3000万条有向边,处理和分析这些数据需要高效的算法和计算资源。此外,跨平台数据的整合与分析也带来了挑战,例如如何准确匹配不同平台上的用户行为数据,以及如何处理不同平台之间的数据格式差异。这些挑战不仅影响了数据的完整性和准确性,也对后续的研究提出了更高的技术要求。
常用场景
经典使用场景
Medium社交网络匿名数据集广泛应用于社交网络分析领域,特别是在研究用户行为模式、社交网络结构和信息传播机制方面。通过该数据集,研究者可以深入分析用户之间的关注关系、内容创作与互动行为,以及跨平台链接对用户活跃度的影响。这些分析为理解社交网络的动态性和复杂性提供了宝贵的数据支持。
解决学术问题
该数据集解决了社交网络研究中多个关键问题,如用户行为预测、社交网络中的信息传播路径分析以及跨平台用户行为的一致性研究。通过提供大规模的用户社交图和详细的用户活动数据,研究者能够更准确地建模社交网络中的信息流动和用户互动模式,从而推动社交网络分析领域的理论发展和技术创新。
衍生相关工作
基于Medium社交网络匿名数据集,研究者们开展了多项经典工作,如社交网络中的社区检测算法优化、用户行为预测模型的构建以及跨平台用户行为分析。这些研究不仅深化了对社交网络结构的理解,还为社交网络平台的运营和优化提供了理论依据和技术支持。此外,该数据集还促进了社交网络分析工具的开发,推动了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成



