infinite_blue_skies
收藏Infinite Blue Skies 数据集概述
数据集简介
Infinite Blue Skies 数据集通过 AtProto API 提供对 Bluesky 社交网络公共帖子的实时访问。该数据集适用于对社交媒体分析、内容审核、语言建模和趋势检测感兴趣的研究人员和开发者。
支持的任务和排行榜
该数据集可用于以下任务:
- 文本生成:在社交媒体内容上训练语言模型
- 文本分类:内容审核、主题分类、情感分析
- 社交媒体分析:趋势检测、用户行为分析
- 内容分析:标签分析、URL 模式分析
数据集结构
数据实例
每个数据实例代表一个 Bluesky 帖子,包含以下字段: json { uri: at://did:plc:..../app.bsky.feed.post/..., cid: baf..., text: The content of the post..., created_at: 2024-03-21T12:34:56.789Z, author_did: did:plc:..., }
数据字段
uri:帖子的唯一标识符cid:内容标识符text:帖子的内容created_at:帖子创建的 ISO 时间戳author_did:作者的去中心化标识符
数据分割
该数据集是一个流式数据集,没有传统的数据分割。数据通过迭代器实时访问。
如何使用
该数据集设计用于 Hugging Face Datasets 库。以下是入门示例: python from datasets import load_dataset
dataset = load_dataset( "serpxe/infinite_blue_skies", streaming=True, trust_remote_code=True, split="train", batch_size=5, )
逐个迭代
for i in range(10): print(next(iter(dataset))) # 返回 10 个帖子
批量迭代
iterable_dataset = iter(dataset) for i in range(10): print(next(iterable_dataset)) # 返回 10 个帖子,但以 5 个为一批




