FediData

github2025-08-14 更新2025-08-18 收录

下载链接：

https://github.com/FDUDataNET/FediData

下载链接

链接失效反馈

官方服务：

资源简介：

FediData是第一个从Mastodon收集的开放多模态数据集，致力于为社会行为建模、多模态学习和用户交互机制研究提供真实可靠的数据支持。

FediData is the first open multi-modal dataset collected from Mastodon, which is dedicated to providing authentic and reliable data support for research on social behavior modeling, multi-modal learning and user interaction mechanisms.

创建时间：

2025-08-13

原始信息汇总

FediData数据集概述

基本信息

数据集名称: FediData
数据来源: Mastodon平台
数据集类型: 多模态联邦数据集
下载地址: Zenodo
引用文献:

@inproceedings{gao2025fedidata, title={{FediData: A Comprehensive Multi-Modal Fediverse Dataset from Mastodon}}, author={Min Gao and Haoran Du and Wen Wen and Qiang Duan and Xin Wang and Yang Chen}, year={2025}, booktitle={Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM’25)} }

数据集特点

多模态性: 包含用户资料、社交网络、帖子内容及图像数据
应用场景: 社交行为建模、多模态学习、用户交互机制研究

数据集结构

FediData/ ├── 📂 data_collection/ # 数据收集工具 │ ├── 📂 image_download/ # 图像下载工具 │ └── 📂 userprofile_ugc_download/ # 用户和帖子数据收集 ├── 📂 bot_detection/ # 社交机器人检测模型 ├── 📂 image_category_classification/ # 图像分类工具 ├── 📂 topic_emotion/ # 主题和情感分析 ├── 📂 dataset/ # 原始和处理后的数据 └── README.md # 项目概述和使用指南

主要功能模块

数据收集

用户资料与UGC收集: 从Mastodon实例收集用户资料、社交网络和帖子
图像下载: 从收集的帖子中提取图像

数据分析

主题与情感分析: 帖子主题分类和情感分析
机器人检测: 使用多种机器学习模型检测社交机器人
图像分类: 使用视觉语言模型进行图像分类

分析工具详情

主题与情感分析

主题分类: 使用LLMs进行自动主题分类
情感分析: 帖子情感和情绪检测
可视化: 综合图表和比较分析

机器人检测模型

模型	描述	类型
BECE	使用嵌入和分类进行机器人检测	深度学习
BotRGCN	关系图卷积网络	图神经网络
SGBot	统计和基于图的特征	随机森林

图像分类

Qwen 2.5 VL-32B Instruct: 用于图像分类的视觉语言模型
支持可配置线程池的批处理
自动重试和错误处理

搜集汇总

数据集介绍

构建方式

FediData作为首个源自Mastodon的多模态开源数据集，其构建过程体现了严谨的学术方法论。研究团队通过分布式爬虫架构实时采集用户画像、社交图谱及用户生成内容，采用多实例并行策略确保数据时效性。在数据预处理阶段，通过SHA-256哈希算法实现用户身份匿名化处理，同时运用视觉语言模型对图像内容进行标准化标注。数据集构建严格遵循欧盟通用数据保护条例，所有文本数据均经过敏感信息过滤与脱敏处理。

特点

该数据集最显著的特征在于其多模态融合架构，包含结构化用户元数据、非结构化文本内容和视觉媒体三大模态。文本数据涵盖英、日、德等多语种帖子及关联情感标签，图像数据则附带自动生成的语义描述。特别值得关注的是其社交图谱的完备性，不仅包含用户关注关系，还整合了跨实例的联邦网络拓扑。数据集内置基准测试任务，包括社交机器人检测、跨模态检索等典型场景，为算法验证提供标准化评估框架。

使用方法

研究者可通过Zenodo平台直接获取预处理的匿名化数据集压缩包，解压后按模块目录结构组织数据文件。对于需要定制化数据采集的场景，项目提供了模块化的Python采集工具链，支持通过环境变量配置Mastodon API访问凭证。典型分析流程建议从dataset/raw目录加载原始JSON数据，利用各子模块的预处理脚本转换为适合特定任务的格式。图像分类等计算密集型任务推荐使用内置的Qwen VL模型，通过调整config/thread_pool.ini可优化资源利用率。

背景与挑战

背景概述

FediData作为首个从Mastodon平台采集的多模态开源数据集，由Min Gao等学者于2025年构建，标志着分布式社交网络研究的重要里程碑。该数据集由佐治亚大学等机构联合开发，旨在为社交行为建模、多模态学习及用户交互机制研究提供真实可靠的数据支撑。其创新性体现在首次系统整合了联邦宇宙（Fediverse）生态中的文本、图像、用户关系等多维度数据，填补了去中心化社交平台缺乏基准数据集的空白，为CIKM等顶级会议的多项研究提供了关键基础设施。

当前挑战

在解决社交网络多模态分析这一核心问题时，FediData面临用户隐私保护与数据匿名化处理的平衡挑战，需在保留行为特征的同时彻底脱敏敏感信息。数据构建过程中，联邦宇宙的分布式架构导致数据采集面临技术复杂性，包括跨实例API调用频率限制、异构数据格式标准化等问题。多模态对齐亦存在显著难度，需开发专用工具链实现文本-图像-社交图谱的时空关联，而社交机器人检测模块则需应对对抗性样本干扰的持续挑战。

常用场景

经典使用场景

在去中心化社交媒体研究领域，FediData作为首个来自Mastodon的多模态开放数据集，为社交行为建模提供了真实可靠的数据基础。该数据集特别适用于分析联邦宇宙（Fediverse）中的用户互动模式，研究者可利用其丰富的文本、图像及用户关系数据，深入探究分布式社交网络中的信息传播规律与社区形成机制。多模态特性使得跨文本视觉的内容关联分析成为可能，为理解现代社交媒体生态提供了全新视角。

解决学术问题

FediData有效解决了分布式社交网络研究中数据获取困难的核心问题。通过提供经过匿名化处理的真实用户行为数据，该数据集支持社交机器人检测、多模态内容理解、用户情感分析等多个前沿研究方向。其包含的完整用户交互图谱为研究信息级联传播、社区检测等经典计算社会科学问题提供了理想实验平台，显著降低了相关领域的研究门槛。

衍生相关工作

基于FediData已衍生出多项重要研究成果，包括获得CIKM'25最佳论文提名的BECE社交检测模型，该模型创新性地结合嵌入表示与分类技术。在跨模态研究方面，研究者利用该数据集开发了BotRGCN图神经网络，显著提升了机器人账户的识别准确率。数据集还催生了首个针对联邦宇宙的情感分析基准，为后续研究提供了标准化评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集