five

FediData

收藏
github2025-08-14 更新2025-08-18 收录
下载链接:
https://github.com/FDUDataNET/FediData
下载链接
链接失效反馈
官方服务:
资源简介:
FediData是第一个从Mastodon收集的开放多模态数据集,致力于为社会行为建模、多模态学习和用户交互机制研究提供真实可靠的数据支持。

FediData is the first open multi-modal dataset collected from Mastodon, which is dedicated to providing authentic and reliable data support for research on social behavior modeling, multi-modal learning and user interaction mechanisms.
创建时间:
2025-08-13
原始信息汇总

FediData数据集概述

基本信息

  • 数据集名称: FediData

  • 数据来源: Mastodon平台

  • 数据集类型: 多模态联邦数据集

  • 下载地址: Zenodo

  • 引用文献:

    @inproceedings{gao2025fedidata, title={{FediData: A Comprehensive Multi-Modal Fediverse Dataset from Mastodon}}, author={Min Gao and Haoran Du and Wen Wen and Qiang Duan and Xin Wang and Yang Chen}, year={2025}, booktitle={Proceedings of the 34th ACM International Conference on Information and Knowledge Management (CIKM’25)} }

数据集特点

  • 多模态性: 包含用户资料、社交网络、帖子内容及图像数据
  • 应用场景: 社交行为建模、多模态学习、用户交互机制研究

数据集结构

FediData/ ├── 📂 data_collection/ # 数据收集工具 │ ├── 📂 image_download/ # 图像下载工具 │ └── 📂 userprofile_ugc_download/ # 用户和帖子数据收集 ├── 📂 bot_detection/ # 社交机器人检测模型 ├── 📂 image_category_classification/ # 图像分类工具 ├── 📂 topic_emotion/ # 主题和情感分析 ├── 📂 dataset/ # 原始和处理后的数据 └── README.md # 项目概述和使用指南

主要功能模块

数据收集

  • 用户资料与UGC收集: 从Mastodon实例收集用户资料、社交网络和帖子
  • 图像下载: 从收集的帖子中提取图像

数据分析

  • 主题与情感分析: 帖子主题分类和情感分析
  • 机器人检测: 使用多种机器学习模型检测社交机器人
  • 图像分类: 使用视觉语言模型进行图像分类

分析工具详情

主题与情感分析

  • 主题分类: 使用LLMs进行自动主题分类
  • 情感分析: 帖子情感和情绪检测
  • 可视化: 综合图表和比较分析

机器人检测模型

模型 描述 类型
BECE 使用嵌入和分类进行机器人检测 深度学习
BotRGCN 关系图卷积网络 图神经网络
SGBot 统计和基于图的特征 随机森林

图像分类

  • Qwen 2.5 VL-32B Instruct: 用于图像分类的视觉语言模型
  • 支持可配置线程池的批处理
  • 自动重试和错误处理
搜集汇总
数据集介绍
main_image_url
构建方式
FediData作为首个源自Mastodon的多模态开源数据集,其构建过程体现了严谨的学术方法论。研究团队通过分布式爬虫架构实时采集用户画像、社交图谱及用户生成内容,采用多实例并行策略确保数据时效性。在数据预处理阶段,通过SHA-256哈希算法实现用户身份匿名化处理,同时运用视觉语言模型对图像内容进行标准化标注。数据集构建严格遵循欧盟通用数据保护条例,所有文本数据均经过敏感信息过滤与脱敏处理。
特点
该数据集最显著的特征在于其多模态融合架构,包含结构化用户元数据、非结构化文本内容和视觉媒体三大模态。文本数据涵盖英、日、德等多语种帖子及关联情感标签,图像数据则附带自动生成的语义描述。特别值得关注的是其社交图谱的完备性,不仅包含用户关注关系,还整合了跨实例的联邦网络拓扑。数据集内置基准测试任务,包括社交机器人检测、跨模态检索等典型场景,为算法验证提供标准化评估框架。
使用方法
研究者可通过Zenodo平台直接获取预处理的匿名化数据集压缩包,解压后按模块目录结构组织数据文件。对于需要定制化数据采集的场景,项目提供了模块化的Python采集工具链,支持通过环境变量配置Mastodon API访问凭证。典型分析流程建议从dataset/raw目录加载原始JSON数据,利用各子模块的预处理脚本转换为适合特定任务的格式。图像分类等计算密集型任务推荐使用内置的Qwen VL模型,通过调整config/thread_pool.ini可优化资源利用率。
背景与挑战
背景概述
FediData作为首个从Mastodon平台采集的多模态开源数据集,由Min Gao等学者于2025年构建,标志着分布式社交网络研究的重要里程碑。该数据集由佐治亚大学等机构联合开发,旨在为社交行为建模、多模态学习及用户交互机制研究提供真实可靠的数据支撑。其创新性体现在首次系统整合了联邦宇宙(Fediverse)生态中的文本、图像、用户关系等多维度数据,填补了去中心化社交平台缺乏基准数据集的空白,为CIKM等顶级会议的多项研究提供了关键基础设施。
当前挑战
在解决社交网络多模态分析这一核心问题时,FediData面临用户隐私保护与数据匿名化处理的平衡挑战,需在保留行为特征的同时彻底脱敏敏感信息。数据构建过程中,联邦宇宙的分布式架构导致数据采集面临技术复杂性,包括跨实例API调用频率限制、异构数据格式标准化等问题。多模态对齐亦存在显著难度,需开发专用工具链实现文本-图像-社交图谱的时空关联,而社交机器人检测模块则需应对对抗性样本干扰的持续挑战。
常用场景
经典使用场景
在去中心化社交媒体研究领域,FediData作为首个来自Mastodon的多模态开放数据集,为社交行为建模提供了真实可靠的数据基础。该数据集特别适用于分析联邦宇宙(Fediverse)中的用户互动模式,研究者可利用其丰富的文本、图像及用户关系数据,深入探究分布式社交网络中的信息传播规律与社区形成机制。多模态特性使得跨文本视觉的内容关联分析成为可能,为理解现代社交媒体生态提供了全新视角。
解决学术问题
FediData有效解决了分布式社交网络研究中数据获取困难的核心问题。通过提供经过匿名化处理的真实用户行为数据,该数据集支持社交机器人检测、多模态内容理解、用户情感分析等多个前沿研究方向。其包含的完整用户交互图谱为研究信息级联传播、社区检测等经典计算社会科学问题提供了理想实验平台,显著降低了相关领域的研究门槛。
衍生相关工作
基于FediData已衍生出多项重要研究成果,包括获得CIKM'25最佳论文提名的BECE社交检测模型,该模型创新性地结合嵌入表示与分类技术。在跨模态研究方面,研究者利用该数据集开发了BotRGCN图神经网络,显著提升了机器人账户的识别准确率。数据集还催生了首个针对联邦宇宙的情感分析基准,为后续研究提供了标准化评估框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作