FediData
收藏FediData数据集概述
基本信息
-
数据集名称: FediData
-
数据来源: Mastodon平台
-
数据集类型: 多模态联邦数据集
-
下载地址: Zenodo
-
引用文献:
@inproceedings{gao2025fedidata, title={{FediData: A Comprehensive Multi-Modal Fediverse Dataset from Mastodon}}, author={Min Gao and Haoran Du and Wen Wen and Qiang Duan and Xin Wang and Yang Chen}, year={2025}, booktitle={Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM’25)} }
数据集特点
- 多模态性: 包含用户资料、社交网络、帖子内容及图像数据
- 应用场景: 社交行为建模、多模态学习、用户交互机制研究
数据集结构
FediData/ ├── 📂 data_collection/ # 数据收集工具 │ ├── 📂 image_download/ # 图像下载工具 │ └── 📂 userprofile_ugc_download/ # 用户和帖子数据收集 ├── 📂 bot_detection/ # 社交机器人检测模型 ├── 📂 image_category_classification/ # 图像分类工具 ├── 📂 topic_emotion/ # 主题和情感分析 ├── 📂 dataset/ # 原始和处理后的数据 └── README.md # 项目概述和使用指南
主要功能模块
数据收集
- 用户资料与UGC收集: 从Mastodon实例收集用户资料、社交网络和帖子
- 图像下载: 从收集的帖子中提取图像
数据分析
- 主题与情感分析: 帖子主题分类和情感分析
- 机器人检测: 使用多种机器学习模型检测社交机器人
- 图像分类: 使用视觉语言模型进行图像分类
分析工具详情
主题与情感分析
- 主题分类: 使用LLMs进行自动主题分类
- 情感分析: 帖子情感和情绪检测
- 可视化: 综合图表和比较分析
机器人检测模型
| 模型 | 描述 | 类型 |
|---|---|---|
| BECE | 使用嵌入和分类进行机器人检测 | 深度学习 |
| BotRGCN | 关系图卷积网络 | 图神经网络 |
| SGBot | 统计和基于图的特征 | 随机森林 |
图像分类
- Qwen 2.5 VL-32B Instruct: 用于图像分类的视觉语言模型
- 支持可配置线程池的批处理
- 自动重试和错误处理




