bluesky-Aozora-Diving
收藏Hugging Face2024-08-19 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/WitchesSocialStream/bluesky-Aozora-Diving
下载链接
链接失效反馈官方服务:
资源简介:
Bluesky Aozora Dive 数据集是一个 atproto 的 firehose 及相关 bluesky 流档案。该数据集包含两个主要的 JSONL 文件:一个用于喜欢、关注、转发和屏蔽等交互事件,另一个用于账户、身份、帖子和回复等一般数据。数据以最小化的丰富度呈现,常见的字段包括 'typ'(数据类型)、'usr'(用户)和 'rid'(记录键)。数据集还描述了如何将数据重建为 AtUri 格式,并包含处理非法规范跟随者的注意事项以及使用数据的建议。该数据集采用 CC-BY-4.0 许可证。
The Bluesky Aozora Dive Dataset is an archive of atproto's firehose and related Bluesky streams. This dataset contains two primary JSONL files: one for interactive events such as likes, follows, reposts, and blocks, and the other for general data including accounts, identities, posts, and replies. The data is presented with minimal richness, where common fields include "typ" (data type), "usr" (user), and "rid" (record key). The dataset also documents how to reconstruct data into AtUri format, includes notes on handling non-compliant followers, and provides recommendations for data usage. This dataset is licensed under CC-BY-4.0.
创建时间:
2024-08-18
原始信息汇总
Bluesky Aozora Dive 数据集概述
数据格式
- 数据类型:原始数据,最小化处理。
- 用户喜欢:用户和用户名已丰富,帖子本身未丰富。
- 加密CID:已去除,因为不包含任何有用文本数据。
数据流
..._atproto_interactions.jsonl:包含交互事件,如点赞、关注、转发和屏蔽。..._atproto_general.jsonl:包含账户、身份、帖子和回复。
通用字段
-
typ:数据类型。 -
usr:用户信息,格式如下: json { "did": "did:plc:4hqjfn7m6n5hno3doamuhgef", "nms": "yui.syui.ai" } -
rid:记录键,用于从bsky API访问数据。
用户名格式
did:去中心化ID,视为唯一ID。nms:用户名,可以是字符串或字符串列表。
媒体内容(Blobs)
- 包含
mime和cid字段,示例如下: json { "mime": "image/jpeg", "size": 891965, "cid": "bafkreifu35fvx45eyldhpoyb3zgtb5dobvjfpw5kkeexwxefrfpzye2pji" }
帖子(简单)
- 示例如下: json { "typ": "post", "usr": { "did": "did:plc:ssd5xwqvrdrxyu2br7sfjwzy", "nms": "samera1989.bsky.social" }, "rid": "3kzyon77od52v", "chg": "create", "tst": 1723987630.494, "pst": { "txt": "帖子内容", "emb": null, "fct": [], "lbl": [], "lng": [], "tgs": [], "rpl": null } }
帖子(复杂)
- 包含回复和其他字段,示例如下: json { "typ": "reply", "usr": { "did": "did:plc:4hqjfn7m6n5hno3doamuhgef", "nms": "yui.syui.ai" }, "rid": "3kzyotm2hzq2d", "chg": "create", "tst": 1723987844.937, "pst": { "txt": "回复内容", "emb": null, "fct": [ { "typ": "@", "val": "https://card.syui.ai/baiser", "rng": [0, 27] } ], "lbl": [], "lng": [], "tgs": [], "rpl": { "typ": "post", "usr": { "did": "did:plc:vok247eewjmbmo3kxaizct2i", "nms": "baiser.blue" }, "rid": "3kzyotbooo22c", "rrt": { "typ": "post", "usr": { "did": "did:plc:vok247eewjmbmo3kxaizct2i", "nms": "baiser.blue" }, "rid": "3kzyosf6atg2v" } } } }
账户
- 示例如下: json { "typ": "account", "usr": { "did": "did:plc:cj3ngde5wbljf5sh33g7zsdz", "nms": "shirotsu.bsky.social", "avy": { "mime": "image/jpeg", "size": 79776, "cid": "bafkreiczz2spptgturm43r33impbkcar4tmdmnh34pqkp2tynlztbxmw7a" }, "bnr": { "mime": "image/jpeg", "size": 748930, "cid": "bafkreigb5l3u32quxzhpbca6bnrunfdau3m4bp6fdntmj2lwec3erkssty" }, "crt": null, "dsc": "个人简介", "dsp": "显示名称" } }
重建为AtUri
- 帖子类型:
at://<usr.did>/app.bsky.feed.post/<rid> - 转发类型:
at://<usr.did>/app.bsky.feed.repost/<rid> - 点赞类型:
at://<usr.did>/app.bsky.feed.like/<rid>
非法规范内容
- 示例如下: json { "typ": "IllegalSpecFollowerAkaFixYourShit", "record": { "text": "任某(男,31歲),被行拘!", "$type": "app.bsky.feed.post", "embed": { "uri": "https://www.headline01.com/a/Xio3zSUuGvX7J1jCSG_F5g-51479340.html", "$type": "app.bsky.embed.external#main", "external": { "uri": "https://www.headline01.com/a/Xio3zSUuGvX7J1jCSG_F5g-51479340.html", "thumb": { "ref": "bafkreidrfrfluqo26yy4pemkcpgug2p5sea3xrwh3schfnns5owa7gbwvm", "size": 86924, "$type": "blob", "mimeType": "image/jpeg" }, "title": "任某(男,31歲),被行拘!", "description": "" } }, "createdAt": "2024-08-18T14:05:19.645644Z" } }
许可证
- 数据集采用
CC-BY-4.0许可证。
引用
- 建议学术引用格式如下: tex @misc{bskyaozora, title = {Aozora Diving: diving into the sea of atproto and bluesky network }, author = {KaraKaraWitch}, year = {2023}, howpublished = {url{https://huggingface.co/datasets/WitchesSocialStream/bluesky-Aozora-Diving}}, }
搜集汇总
数据集介绍

构建方式
Bluesky Aozora Dive数据集是通过捕获并归档atproto的firehose流数据构建而成。该数据集以JSONL格式呈现,包含用户互动、帖子、回复以及账户信息等多个维度的数据。数据经过最小程度的处理,保留了原始的结构和内容,剔除了无用的加密CID信息。数据集通过持续更新和修复,确保数据的完整性和准确性。
特点
该数据集的特点在于其多样化的数据类型和丰富的元信息。数据集不仅包含用户发布的帖子和回复,还涵盖了用户的互动行为,如点赞、关注和转发等。此外,数据集还提供了用户的账户信息,包括头像、横幅、创建时间等详细字段。数据集的结构设计灵活,能够支持复杂的数据查询和分析,尤其适合研究社交网络行为和用户生成内容。
使用方法
使用Bluesky Aozora Dive数据集时,用户可以通过解析JSONL文件获取所需的数据。数据集中的每条记录都包含类型、用户ID、记录键等关键字段,用户可以根据这些字段进行数据筛选和提取。对于复杂的帖子或回复,数据集提供了详细的元信息,如时间戳、变更类型、嵌入内容等,便于用户进行深入分析。此外,数据集还支持通过API获取更丰富的内容,用户可以根据需要进一步扩展数据的使用场景。
背景与挑战
背景概述
Bluesky Aozora Dive数据集是一个专注于存档atproto和Bluesky网络流数据的资源库,由KaraKaraWitch于2024年创建。该数据集旨在捕捉和记录Bluesky社交平台上的用户互动、帖子内容以及账户信息,为研究人员和开发者提供了一个丰富的社交网络行为分析平台。通过提供详细的用户互动数据和内容发布记录,该数据集为社交网络分析、用户行为研究以及内容推荐系统的开发提供了宝贵的数据支持。
当前挑战
Bluesky Aozora Dive数据集在构建和应用过程中面临多重挑战。首先,数据的高动态性和实时性要求数据集必须持续更新以反映最新的社交网络活动,这对数据采集和处理的效率提出了高要求。其次,数据集中包含的多种数据类型和格式(如帖子、回复、账户信息等)需要复杂的解析和整合技术,以确保数据的准确性和可用性。此外,数据隐私和安全问题也是构建过程中需要重点考虑的因素,特别是在处理用户敏感信息时,必须严格遵守数据保护法规。这些挑战要求数据集的设计和维护团队具备高度的技术能力和对数据伦理的深刻理解。
常用场景
经典使用场景
Bluesky Aozora Dive数据集主要应用于社交网络分析领域,特别是在研究去中心化社交平台(如Bluesky)上的用户行为和内容传播模式。该数据集通过捕获Bluesky平台上的实时数据流,包括用户互动、帖子内容、账户信息等,为研究人员提供了一个丰富的资源库,用于分析社交网络中的信息传播、用户关系网络构建以及内容生成机制。
实际应用
在实际应用中,Bluesky Aozora Dive数据集被广泛用于社交媒体监控、用户行为预测以及内容推荐系统的开发。企业可以利用该数据集分析用户偏好,优化广告投放策略;同时,政府和研究机构也可以通过该数据集监测社交平台上的信息传播趋势,识别潜在的虚假信息或有害内容。
衍生相关工作
基于Bluesky Aozora Dive数据集,已经衍生出多项经典研究工作。例如,有研究利用该数据集分析了去中心化社交平台上的信息传播效率,提出了改进的内容推荐算法;还有研究通过该数据集构建了用户行为预测模型,为社交网络中的用户画像提供了新的视角。这些工作不仅推动了社交网络分析领域的发展,也为去中心化平台的设计与优化提供了理论支持。
以上内容由遇见数据集搜集并总结生成



