five

Multi-Platform Aggregated Dataset of Online Communities (MADOC)

收藏
arXiv2025-01-22 更新2025-01-24 收录
下载链接:
https://zenodo.org/records/14637314
下载链接
链接失效反馈
官方服务:
资源简介:
MADOC数据集是一个跨平台的社交媒体数据集,由贝尔格莱德大学等机构的研究人员创建,旨在为计算社会科学研究提供标准化的数据资源。该数据集整合了来自Reddit、Bluesky、Koo和Voat四个平台的1890万条帖子和2.36亿条评论,覆盖2310万独立用户,时间跨度为2012年至2024年。数据集通过Zenodo平台提供FAIR原则的访问,支持用户行为、社区动态和内容情感的比较分析。数据集的内容包括用户互动、文本内容和情感分析数据,特别关注社区动态和跨平台有害行为的演变。数据集的创建过程包括数据清洗、标准化和隐私保护措施,适用于研究社会现象如有害行为传播和用户迁移模式。

The MADOC dataset is a cross-platform social media dataset created by researchers from institutions including the University of Belgrade, aiming to provide standardized data resources for computational social science research. This dataset integrates 18.9 million posts and 236 million comments from four platforms: Reddit, Bluesky, Koo, and Voat, covering 23.1 million unique users, with a time span from 2012 to 2024. The dataset is made accessible under the FAIR principles via the Zenodo platform, supporting comparative analyses of user behaviors, community dynamics, and content sentiment. The content of the dataset includes user interactions, textual content, and sentiment analysis data, with a particular focus on community dynamics and the evolution of cross-platform harmful behaviors. The dataset’s creation process includes data cleaning, standardization, and privacy protection measures, and is applicable to research on social phenomena such as the spread of harmful behaviors and user migration patterns.
提供机构:
贝尔格莱德大学物理研究所, 贝尔格莱德大学Vinča核科学研究所, 诺维萨德大学哲学院
创建时间:
2025-01-22
搜集汇总
数据集介绍
main_image_url
构建方式
MADOC数据集通过整合来自Bluesky、Koo、Reddit和Voat四个平台的公开数据,构建了一个跨平台的标准化数据集。数据收集涵盖了2012年至2024年的时间范围,包含1890万条帖子、2.36亿条评论以及2310万独立用户的数据。数据集通过使用Pushshift.io等现有公开数据集,结合Latent Dirichlet Allocation (LDA)主题建模技术,实现了跨平台内容的对齐与标准化。数据处理过程中,采用了去重、时间戳转换、文本编码标准化等步骤,并移除了超过70%的机器人用户内容,确保了数据的质量与一致性。
使用方法
MADOC数据集的使用方法灵活多样,研究者可以通过Zenodo平台获取数据,并使用提供的Python和R包进行数据访问与分析。数据集以Apache Parquet格式存储,支持按平台或社区选择性加载数据。研究者可以基于标准化结构构建交互网络,分析用户行为模式,或进行跨平台的内容与情感比较。此外,数据集还支持纵向研究,帮助分析在线话语和社区规范随时间的变化。通过详细的文档和FAIR原则的遵循,MADOC为研究者提供了一个高效且可重复的研究工具。
背景与挑战
背景概述
Multi-Platform Aggregated Dataset of Online Communities (MADOC) 是由多个研究机构于2025年创建的一个跨平台社交媒体数据集,旨在为计算社会科学研究提供统一的标准化数据。该数据集整合了来自Bluesky、Koo、Reddit和Voat四个平台的用户交互数据,涵盖了2012年至2024年间的18.9百万条帖子和236百万条评论,涉及23.1百万个独立用户。MADOC的核心研究问题包括跨平台用户行为分析、社区动态演化、内容情感分析以及平台内容审核政策的影响。通过提供标准化的数据结构和符合FAIR原则的访问方式,MADOC为研究人员提供了一个强大的工具,用于研究在线社区中的社会现象,如有害行为的传播和用户迁移模式。
当前挑战
MADOC数据集在构建过程中面临了多方面的挑战。首先,跨平台数据的对齐和标准化是一个复杂的问题,尤其是当不同平台的组织结构和数据格式差异较大时。例如,Reddit和Voat通过子社区组织内容,而Bluesky和Koo则缺乏明确的主题分类。为此,研究人员采用了LDA主题建模技术来识别跨平台的相似内容。其次,数据隐私保护也是一个重要挑战。尽管数据集通过UUID哈希化对用户标识进行了匿名化处理,但仍需确保在保留数据研究价值的同时,防止用户身份的重新识别。此外,数据集中的有害内容(如仇恨言论和骚扰行为)虽然对研究有害行为的传播至关重要,但也带来了潜在的伦理风险,研究人员需谨慎处理这些内容,避免其被滥用。
常用场景
经典使用场景
Multi-Platform Aggregated Dataset of Online Communities (MADOC) 数据集在计算社会科学领域中被广泛用于跨平台用户行为分析。通过整合来自 Bluesky、Koo、Reddit 和 Voat 四个平台的标准化数据,MADOC 使得研究人员能够比较不同平台上的用户互动模式、内容传播机制以及社区动态变化。该数据集特别适用于研究平台架构对用户参与度的影响,以及社区在重大事件(如内容审核或政策变更)中的反应。
解决学术问题
MADOC 数据集解决了跨平台社交媒体研究中数据标准化和可比性的难题。通过提供统一的、标准化的数据结构,研究人员能够深入探讨用户行为、内容情感以及社区动态的跨平台差异。该数据集特别有助于研究有毒行为的传播机制、用户迁移模式以及平台审核政策的有效性。这些研究不仅推动了计算社会科学的发展,还为平台设计和社会治理提供了科学依据。
实际应用
在实际应用中,MADOC 数据集被广泛用于社交媒体平台的治理和优化。例如,平台运营商可以利用该数据集分析不同审核政策对用户行为的影响,从而制定更有效的社区管理策略。此外,该数据集还为开发自动化内容审核工具提供了丰富的数据支持,帮助识别和过滤有害内容,提升平台的整体用户体验。
数据集最近研究
最新研究方向
随着社交媒体平台的多样化发展,跨平台用户行为与社区动态的研究逐渐成为计算社会科学领域的前沿热点。MADOC数据集通过整合Reddit、Bluesky、Koo和Voat四大平台的数据,为研究者提供了一个标准化的跨平台分析工具。当前的研究方向主要集中在以下几个方面:首先,跨平台用户行为分析,探讨不同平台架构下用户参与模式的异同;其次,社区动态研究,特别是平台内容审核政策对用户迁移和社区结构的影响;第三,内容与情感分析,揭示不同平台和社区中话语和情感的变化规律;第四,平台审核政策的有效性评估,通过历史数据研究审核政策对用户行为的长期影响。MADOC的标准化结构和丰富元数据使其成为研究平台治理、用户迁移模式以及有害内容传播的理想工具,尤其在当前API访问受限的背景下,其价值更加凸显。
相关研究论文
  • 1
    Multi-Platform Aggregated Dataset of Online Communities (MADOC)贝尔格莱德大学物理研究所, 贝尔格莱德大学Vinča核科学研究所, 诺维萨德大学哲学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作