bluesky

Hugging Face2024-11-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Roronotalt/bluesky

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如类型、文本、创建时间、作者、作者标识符、URI、嵌入数组、语言、回复对象等。数据集分为训练集，包含609348个样本，总大小为214502183字节。数据集的配置名为'default'，数据文件路径为'data/train-*'。

创建时间：

2024-11-28

原始信息汇总

数据集概述

数据集名称

Five Million bluesky posts

数据集描述

该数据集包含从Bluesky Social的firehose API收集的500万条公开帖子，旨在用于机器学习研究和社交媒体数据的实验。

数据集来源

该数据集受到Alpindales原始200万帖子数据集的启发，扩展了更多数据。与Alpins的数据集不同，该数据集包含了作者句柄和帖子中的图像URL及元数据。

数据集结构

特征

type: 字符串类型
text: 字符串类型
created_at: 字符串类型
author: 字符串类型
author_did: 字符串类型
uri: 字符串类型
embedded_array: 列表类型
- alt: 字符串类型
- blob: 字符串类型
- type: 字符串类型
langs: 字符串序列
reply_to: 字符串类型

分割

train: 包含3,459,856个样本，总大小为1,213,522,565字节

文件

train: 数据文件路径为data/train-*

数据集大小

下载大小: 723,842,569字节
数据集大小: 1,213,522,565字节

数据集用途

该数据集可用于以下研究：

研究社交媒体趋势
研究社交媒体内容审核
研究对话结构和回复网络

数据集版权

许可证: MIT

数据集作者

Curated by: Roro

注意事项

数据集未经过滤，可能包含重复数据。
数据集按批次（每批次100万帖子）进行去重，因此重复数量可能可以忽略不计。
数据集按原样提供，不提供任何责任。

搜集汇总

数据集介绍

构建方式

Bluesky数据集通过Bluesky Social的firehose API收集了500万条公开帖子，旨在为社交媒体数据的机器学习研究和实验提供支持。该数据集扩展了Alpindales原有的200万条帖子数据集，并增加了作者信息和图像URL及其元数据。数据集的构建过程中，通过去重处理确保了每条帖子的唯一性，并按照作者列进行了排序。

特点

Bluesky数据集包含了丰富的社交媒体信息，涵盖了帖子类型、文本内容、创建时间、作者信息、作者DID、URI、嵌入数组（包括图像描述和图像字节）、语言列表以及回复信息等特征。特别值得一提的是，数据集中的图像及其描述为训练模型提供了宝贵的资源。数据集以Apache-2.0许可证发布，确保了其开放性和可扩展性。

使用方法

Bluesky数据集可通过Hugging Face的`load_dataset()`函数加载，支持以流式迭代方式处理数据，或转换为Pandas DataFrame以便进一步分析。用户还可以将数据集保存为CSV文件。对于图像数据的处理，数据集提供了图像字节和作者DID，用户可以通过Bluesky的ATPROTO库解码图像URL。该数据集适用于社交媒体趋势研究、内容审核分析以及对话结构和回复网络的研究。

背景与挑战

背景概述

Bluesky数据集由Roro于2024年创建，旨在为机器学习研究提供丰富的社交媒体数据资源。该数据集从Bluesky Social的firehose API中收集了500万条公开帖子，扩展了Alpindales原有的200万条帖子数据集。Bluesky数据集不仅包含了文本内容，还首次引入了作者信息、图像URL及其元数据，这些信息对于训练模型具有潜在的重要价值。该数据集的研究背景聚焦于社交媒体趋势分析、内容审核以及对话结构与回复网络的研究，为相关领域的研究者提供了宝贵的数据支持。

当前挑战

Bluesky数据集在构建与应用过程中面临多重挑战。首先，社交媒体数据的动态性与多样性使得数据清洗与预处理变得复杂，尤其是图像数据的有效性难以保证。其次，数据集中包含的大量非结构化文本与图像数据对存储与计算资源提出了较高要求，处理这些数据需要高效的算法与硬件支持。此外，社交媒体数据的隐私与伦理问题也不容忽视，如何在保护用户隐私的同时确保数据的可用性，是数据集构建与应用中亟待解决的难题。

常用场景

经典使用场景

Bluesky数据集在社交媒体研究领域具有广泛的应用，尤其是在分析社交网络中的用户行为和内容传播模式方面。研究者可以利用该数据集深入探讨用户生成内容的特征，以及不同用户群体之间的互动模式。通过分析大量的公开帖子，研究者能够揭示社交媒体平台上的信息流动规律，进而为社交网络分析提供有力的数据支持。

解决学术问题

Bluesky数据集为学术界提供了丰富的社交媒体数据资源，解决了在社交网络分析、内容传播模型构建以及用户行为研究中的数据匮乏问题。通过该数据集，研究者能够深入探讨社交媒体中的信息传播机制，识别虚假信息和有害内容的传播路径，从而为社交媒体平台的治理和优化提供科学依据。此外，该数据集还为自然语言处理领域的研究提供了宝贵的语料库，助力于文本分析和情感分析等任务的开展。

衍生相关工作

Bluesky数据集的发布催生了一系列相关研究，尤其是在社交网络分析和自然语言处理领域。基于该数据集，研究者开发了多种社交网络分析模型，用于预测信息传播路径和用户行为模式。此外，该数据集还被用于训练深度学习模型，以提升文本分类、情感分析和虚假信息检测等任务的性能。这些研究工作不仅推动了社交媒体研究的深入发展，也为相关领域的实际应用提供了技术支持。

以上内容由遇见数据集搜集并总结生成