bluesky-ten-million

Hugging Face2024-12-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Roronotalt/bluesky-ten-million

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Bluesky Social的firehose API收集的500万条公开帖子，旨在用于机器学习研究和社交媒体数据的实验。数据集扩展了Alpindales的原始200万帖子数据集，并收集了作者句柄和帖子中的图像URL及元数据。数据集由Roro策划，使用MIT许可证。数据集可用于研究社交媒体趋势、内容审核和对话结构。数据集未经过滤，按作者列排序，并根据帖子URI去重。

创建时间：

2024-12-01

原始信息汇总

Ten Million bluesky posts

数据集概述

数据集名称: Ten Million bluesky posts
数据集大小: 3500528518 字节
下载大小: 1428374810 字节
样本数量: 10000000
数据集类型: 社交网络数据
数据集用途:
- 研究社交网络趋势
- 社交网络内容审核研究
- 对话结构和回复网络研究
数据集来源: Bluesky Socials firehose API
数据集版本: 小版本，用于测试和格式化/小型项目
数据集作者: Roro
数据集许可证: MIT

数据集结构

特征:
- type: 字符串
- text: 字符串
- created_at: 字符串
- author: 字符串
- author_did: 字符串
- uri: 字符串
- embedded_array: 列表
  - alt: 字符串
  - blob: 字符串
  - type: 字符串
- langs: 字符串序列
- reply_to: 字符串
分割:
- train: 10000000 样本

数据集使用

加载方式: 使用 huggingface 的 load_dataset() 函数加载
依赖库:
- pandas
- pyarrow
- datasets
- huggingface_hub
转换为Pandas DataFrame: python new_dataset = dataset.to_pandas()
保存为CSV: bash python -c "import pandas as pd; df = http://pd.read_parquet(train-0000.parquet, engine=pyarrow); http://df.to_csv(output_file.csv, index=False) "

数据集处理

去重: 基于 post URIs 进行去重
排序: 按 author 列排序
过滤: 未进行质量或审核过滤

搜集汇总

数据集介绍

构建方式

该数据集名为bluesky-ten-million，由Roro精心策划，通过从Bluesky Social的firehose API中收集了500万条公开帖子构建而成。此数据集是对Alpindales原始200万帖子数据集的扩展，不仅包含了更多的数据，还特别收集了帖子中的图像及其元数据，这些信息对于机器学习研究具有潜在的巨大价值。数据集的构建过程中，作者还进行了基于帖子URI的去重操作，并按作者列对数据进行了排序。

特点

bluesky-ten-million数据集的显著特点在于其规模和内容的丰富性。该数据集包含了500万条公开帖子，涵盖了文本、创建时间、作者信息、URI、嵌入的图像及其描述等多种特征。此外，数据集还包含了语言标识和回复信息，这为研究社交网络的对话结构和回复网络提供了丰富的素材。数据集的未过滤状态也为用户提供了根据自身需求进行进一步筛选和处理的可能性。

使用方法

该数据集主要用于机器学习研究，特别是在社交媒体数据分析领域。用户可以通过HuggingFace的load_dataset()函数直接下载和加载数据集，支持迭代流处理以节省内存，或转换为Pandas DataFrame进行更复杂的分析。数据集的Parquet文件格式也允许用户通过简单的Python代码转换为CSV格式，便于进一步的数据处理和分析。

背景与挑战

背景概述

bluesky-ten-million数据集是由Roro精心策划，旨在为机器学习研究提供丰富的社交媒體数据资源。该数据集包含了从Bluesky Social的firehose API中收集的500万条公开帖子，是对Alpindales原始200万帖子数据集的扩展。其核心研究问题围绕社交媒體数据的分析与应用，包括社交媒體趋势研究、内容审核以及对话结构和回复网络的探索。该数据集的创建不仅丰富了社交媒體数据的研究资源，还为相关领域的研究提供了新的视角和工具。

当前挑战

尽管bluesky-ten-million数据集为社交媒體研究提供了丰富的数据资源，但在其构建和应用过程中仍面临若干挑战。首先，数据集中的图像引用字节尚未能解析为图像或blob URL，这限制了图像数据的直接利用。其次，数据集未经过滤，可能包含质量参差不齐的内容，这为数据的质量控制和内容审核带来了挑战。此外，数据集的规模较大，处理和存储这些数据对计算资源和存储空间提出了较高的要求。

常用场景

经典使用场景

bluesky-ten-million数据集的经典使用场景主要集中在社交媒体数据的分析与研究。研究者可以利用该数据集进行社交网络趋势的分析，探索用户生成内容的多样性，以及研究社交媒体上的对话结构和回复网络。通过分析这些数据，研究者能够深入理解社交媒体平台的动态变化和用户互动模式。

解决学术问题

该数据集为解决社交媒体领域的多个学术问题提供了丰富的资源。例如，研究者可以利用此数据集探讨社交媒体内容审核的复杂性，分析不同类型的内容如何影响用户的互动行为，以及研究社交媒体上的信息传播机制。这些研究不仅有助于理解社交媒体的运作机制，还为制定有效的内容管理策略提供了理论支持。

衍生相关工作

基于bluesky-ten-million数据集，研究者已开展了一系列相关工作。例如，有研究利用该数据集开发了新的社交媒体内容分类算法，以提高内容审核的准确性。此外，还有研究通过分析数据集中的对话结构，提出了新的社交网络分析方法，为理解复杂社交网络提供了新的视角。这些衍生工作进一步扩展了数据集的应用范围，推动了社交媒体研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集