farcaster-casts
收藏Hugging Face2025-02-28 更新2025-03-01 收录
下载链接:
https://huggingface.co/datasets/jc4p/farcaster-casts
下载链接
链接失效反馈官方服务:
资源简介:
Farcaster公开帖子数据集包含来自Farcaster社交协议的约1.57亿条未删除的公开帖子(casts)。数据集为每个帖子提供了全面的元数据,包括用户ID、消息类型、时间戳、帖子哈希值、签名方案、签名、签名者公钥、文本内容、提及的用户、父帖子ID、外部内容URL以及嵌入的内容等。该数据集可用于分析Farcaster上的对话模式、社交互动、回复链和社区形成、讨论和趋势的演变、社交媒体语言的模型训练、嵌入内容分享模式、去中心化社交网络的成长和用户行为研究等。
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
Farcaster Casts数据集由Farcaster社交协议中的公开投放(帖子)构成,总计包含157,054,986条未被作者删除的投放记录。数据集构建时纳入了全面的元数据,为每条投放提供了详尽的标识信息,从而便于对Farcaster生态系统进行深入分析。
特点
该数据集的特点在于其全面性与细粒度的元数据,涵盖了用户ID、消息类型、时间戳、唯一哈希标识、加密签名方案、签名者公钥、文本内容、提及的用户、父投放ID、外部内容URL以及嵌入内容等字段。这些特点使得该数据集在分析社交互动模式、研究社区形成、追踪讨论演变、训练语言模型等方面具有显著价值。
使用方法
数据集的使用可通过Python的pandas库或DuckDB进行。用户可以加载Parquet格式的数据集,转换时间戳为标准Unix时间戳或日期时间格式,进而统计每月或每日的投放数量,识别活跃用户,分析回复链,以及研究嵌入内容的分享模式等。需要注意的是,该数据集不包括用户个人资料和互动度量的信息。
背景与挑战
背景概述
Farcaster Casts数据集是在2025年构建的,由Farcaster社交协议提供,包含了约1.57亿条未被作者删除的公开帖子(casts)。该数据集由Farcaster网络提供,是一个反映社交网络互动和内容的宝贵资源。数据集的创建旨在为研究人员和开发者提供全面的社会媒体互动数据,以进行深入的内容分析、社交模式挖掘和语言模型训练等。Farcaster Casts数据集以其详尽的元数据和对Farcaster生态系统的深入洞察而具有显著的研究价值,对于理解去中心化社交网络的增长趋势和用户行为模式具有重要意义。
当前挑战
尽管Farcaster Casts数据集提供了丰富的信息,但在研究领域中仍面临一些挑战。首先,数据集缺少用户个人资料信息和互动度量的数据,如点赞和分享等,这限制了对其社交影响和用户行为的全面分析。其次,数据集仅包含公开可访问的casts,可能无法反映用户删除内容后的社交动态变化。此外,数据集在构建过程中需要处理大量数据,保证数据质量和隐私伦理问题,这些都是数据集构建者需要克服的技术和伦理挑战。
常用场景
经典使用场景
在社会科学与网络科学研究中,Farcaster Casts数据集的典型应用场景是对社交媒体上的交流模式和社会互动进行深入分析。通过对数据集中包含的每一条公开帖子的详尽元数据进行挖掘,研究者能够探究Farcaster社交协议中的用户行为特征,如回复链和社区形成过程。
解决学术问题
该数据集有效解决了社交媒体分析中关于用户互动模式与信息传播机制的学术问题。它为研究提供了关于去中心化社交网络增长和用户行为的重要数据,有助于构建和验证社交网络模型,同时也为理解病毒式传播内容的特征提供了实证基础。
衍生相关工作
基于Farcaster Casts数据集,研究者已经衍生出一系列相关工作,包括构建用户互动网络图、设计病毒式内容预测分类器,以及开发用于监测社交媒体趋势和讨论演变的工具。这些工作进一步扩展了该数据集的应用范围,促进了社交媒体数据分析领域的发展。
以上内容由遇见数据集搜集并总结生成



