five

andrewconner/bluesky_profiles

收藏
Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/andrewconner/bluesky_profiles
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个Bluesky社交网络的镜像数据集,包含用户档案信息(如did、handle、显示名称、索引时间、关注数、粉丝数、帖子数和描述)和关注关系图(did与did之间的关系,带有创建时间戳)。此外,还包括了关注关系图的PageRank计算结果。数据集抓取时优先处理较大的账户,因此较小的账户可能信息不完整。数据集还处理了关注垃圾账户的问题,并考虑了数据不一致性。

这是一个Bluesky社交网络的镜像数据集,包含用户档案信息(如did、handle、显示名称、索引时间、关注数、粉丝数、帖子数和描述)和关注关系图(did与did之间的关系,带有创建时间戳)。此外,还包括了关注关系图的PageRank计算结果。数据集抓取时优先处理较大的账户,因此较小的账户可能信息不完整。数据集还处理了关注垃圾账户的问题,并考虑了数据不一致性。
提供机构:
andrewconner
原始信息汇总

Bluesky Network (Profiles and Follows)

数据集概述

  • 数据来源:Bluesky社交网络(https://bsky.app/)
  • 数据内容:包括用户资料信息(DID, 用户名, 显示名称, 索引时间, 关注数, 粉丝数, 帖子数, 描述)和关注关系图(DID, DID),以及创建时间戳和计算的PageRank。

数据集特点

  • 用户资料:大多数用户资料信息完整,但小账号可能信息不全。
  • 关注关系:关注关系一旦获取,不会从数据库中移除。
  • PageRank计算:仅考虑关注者和被关注者中粉丝数超过30的账号。

数据集限制

  • 数据一致性:由于网络爬取耗时,存在一些数据不一致,如follows中的DID可能没有对应账号。
  • 爬取优先级:优先爬取大账号,小账号可能信息不完整。
  • 关注者限制:前30名关注大量账号的用户(垃圾邮件发送者)受到限制。

数据集使用

  • API文档:详细字段解释请参考Bluesky / AT Proto API
  • 数据更新:用户资料是否更新通过accounts.isDetailed字段追踪。

数据集状态

  • 爬虫源代码:尚未公开,但可能即将发布。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作