andrewconner/bluesky_profiles
收藏Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andrewconner/bluesky_profiles
下载链接
链接失效反馈官方服务:
资源简介:
这是一个Bluesky社交网络的镜像数据集,包含用户档案信息(如did、handle、显示名称、索引时间、关注数、粉丝数、帖子数和描述)和关注关系图(did与did之间的关系,带有创建时间戳)。此外,还包括了关注关系图的PageRank计算结果。数据集抓取时优先处理较大的账户,因此较小的账户可能信息不完整。数据集还处理了关注垃圾账户的问题,并考虑了数据不一致性。
这是一个Bluesky社交网络的镜像数据集,包含用户档案信息(如did、handle、显示名称、索引时间、关注数、粉丝数、帖子数和描述)和关注关系图(did与did之间的关系,带有创建时间戳)。此外,还包括了关注关系图的PageRank计算结果。数据集抓取时优先处理较大的账户,因此较小的账户可能信息不完整。数据集还处理了关注垃圾账户的问题,并考虑了数据不一致性。
提供机构:
andrewconner
原始信息汇总
Bluesky Network (Profiles and Follows)
数据集概述
- 数据来源:Bluesky社交网络(https://bsky.app/)
- 数据内容:包括用户资料信息(DID, 用户名, 显示名称, 索引时间, 关注数, 粉丝数, 帖子数, 描述)和关注关系图(DID, DID),以及创建时间戳和计算的PageRank。
数据集特点
- 用户资料:大多数用户资料信息完整,但小账号可能信息不全。
- 关注关系:关注关系一旦获取,不会从数据库中移除。
- PageRank计算:仅考虑关注者和被关注者中粉丝数超过30的账号。
数据集限制
- 数据一致性:由于网络爬取耗时,存在一些数据不一致,如
follows中的DID可能没有对应账号。 - 爬取优先级:优先爬取大账号,小账号可能信息不完整。
- 关注者限制:前30名关注大量账号的用户(垃圾邮件发送者)受到限制。
数据集使用
- API文档:详细字段解释请参考Bluesky / AT Proto API。
- 数据更新:用户资料是否更新通过
accounts.isDetailed字段追踪。
数据集状态
- 爬虫源代码:尚未公开,但可能即将发布。



