five

RedditMods

收藏
github2024-02-10 更新2024-05-31 收录
下载链接:
https://github.com/almayor/reddit-mods-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
RedditMods是一个数据集,列出了Reddit上25,834个最大和最受欢迎社区的管理员。该数据集适合用于研究Reddit作为一个二分图,其中管理员节点和社区节点通过管理关系相连。通过聚类分析,可以识别具有特定倾向的社区群体,或推荐相似的社区。

The RedditMods dataset catalogs the administrators of 25,834 of the largest and most popular communities on Reddit. This dataset is well-suited for research treating Reddit as a bipartite graph, where administrator nodes and community nodes are connected by management relationships. Through cluster analysis, it is possible to identify groups of communities with specific tendencies or to recommend similar communities.
创建时间:
2024-02-06
原始信息汇总

数据集概述

名称: RedditMods

描述: RedditMods 数据集包含了 Reddit 上最大的 25,834 个社区的版主信息。该数据集适合用于研究 Reddit 作为二分图,其中版主节点和社区节点通过版主与其管理的子版块相连接。通过聚类分析,可以识别具有特定倾向的子版块群组,或推荐相似的社区。

数据收集

  • 收集时间: 2024年2月6日
  • 数据来源: 公开数据,通过爬虫程序收集
  • 数据处理: 所有用户名通过 SHA256 哈希进行匿名化处理

文件描述

GEXF – 图格式数据

  • 文件: graph.gexf
  • 内容: 二分图,其中 bipartite=0 的节点代表版主,bipartite=1 的节点代表子版块。版主节点与子版块节点相连表示该版主管理此子版块。
  • 标签: 子版块节点上的 size 标签表示该子版块的成员数量。

CSV – 表格格式数据

  1. subreddits.csv

    • 内容: 包含 25,000 个子版块的信息,来自 Reddit 的顶级社区列表。
    • 字段:
      • name: 子版块名称
      • n_members: 成员数量
  2. moderators.csv

    • 内容: 描述每个子版块与其版主的配对信息。
    • 字段:
      • subreddit: 子版块名称
      • moderator: 版主用户名(已哈希匿名化)
  3. bots.csv

    • 内容: 列出被识别为机器人的版主。
    • 字段:
      • name: 机器人用户名

示例

  • 可视化示例: 展示了由一组用户管理的子版块群组的可视化。
搜集汇总
数据集介绍
main_image_url
构建方式
RedditMods数据集的构建基于对Reddit平台上25,834个最大且最受欢迎的社区版主信息的抓取。数据收集过程通过关联的Jupyter Notebook实现,所有数据均为公开获取,并于2024年2月6日完成采集。为确保隐私,所有用户名均通过SHA256哈希算法进行匿名化处理,使其无法与Reddit账户直接关联。数据集以表格和二分图两种格式呈现,便于不同研究需求的使用。
特点
RedditMods数据集的特点在于其全面覆盖了Reddit平台上最具影响力的社区版主信息,并以二分图的形式展示了版主与社区之间的关联关系。数据集中的节点分为版主和社区两类,边表示版主对特定社区的监管关系。此外,数据集还包含了社区成员数量等附加信息,为研究社区结构、版主行为以及社区推荐提供了丰富的数据支持。
使用方法
RedditMods数据集的使用方法灵活多样,既可通过CSV文件进行表格数据分析,也可利用GEXF文件进行图结构分析。研究者可以通过分析二分图,探索版主与社区之间的关联模式,或通过聚类方法识别具有特定倾向的社区群体。此外,数据集还可用于构建社区推荐系统,帮助用户发现与其兴趣相似的社区。通过提供的Jupyter Notebook示例,用户可以快速上手并进行数据可视化与深入分析。
背景与挑战
背景概述
RedditMods数据集由GingerBadger于2024年2月6日创建,旨在研究Reddit平台上25,834个最大且最受欢迎的社区版主信息。该数据集以二分图的形式呈现,其中节点分为版主和社区两类,若某版主管理某社区,则两者之间建立连接。该数据集为研究Reddit社区结构、版主行为以及社区推荐系统提供了重要数据支持。通过聚类分析,研究者可以识别具有特定倾向的社区群体,或推荐相似社区,从而深入理解Reddit平台的社交网络动态。
当前挑战
RedditMods数据集在构建与应用过程中面临多重挑战。首先,数据采集过程中需确保版主信息的匿名化处理,尽管采用了SHA256哈希算法对用户名进行加密,但仍需防范潜在的隐私泄露风险。其次,自动化版主(如AutoModerator)的识别与过滤存在技术难度,当前仅通过简单规则进行筛选,可能导致部分自动化账户未被准确识别。此外,数据集的二分图结构虽为社区分析提供了便利,但在大规模数据处理与可视化方面仍存在计算复杂度高、存储需求大等问题,需进一步优化算法与工具以提升分析效率。
常用场景
经典使用场景
RedditMods数据集在社交网络分析领域具有重要应用,特别是在研究Reddit社区的结构和动态时。该数据集以二分图的形式呈现,其中节点分别代表版主和子论坛,边表示版主与子论坛的关联关系。通过这种结构,研究者可以进行社区检测、聚类分析,从而识别具有相似倾向的子论坛群体,或为推荐系统提供数据支持。
解决学术问题
RedditMods数据集为研究社交网络中的社区结构和版主行为提供了丰富的数据基础。它解决了如何在大规模社交平台中识别和分类社区的问题,同时为分析版主在社区管理中的角色和影响力提供了实证依据。此外,该数据集还支持对自动化版主(如机器人)的识别和过滤,为研究社交网络中的自动化行为提供了工具。
衍生相关工作
基于RedditMods数据集,研究者们开展了多项经典工作。例如,利用该数据集进行社区检测和聚类分析,识别出具有相似主题或用户群体的子论坛。此外,该数据集还被用于研究版主行为对社区活跃度的影响,以及自动化版主在社区管理中的作用。这些研究不仅深化了对社交网络结构的理解,还为平台优化和用户推荐提供了理论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作