A Blue Start

Name: A Blue Start
Creator: 东北大学网络科学研究所, 波士顿, 马萨诸塞州, 美国
Published: 2025-05-17 02:15:28
License: 暂无描述

arXiv2025-05-17 更新2025-05-21 收录

下载链接：

http://arxiv.org/abs/2505.11608v1

下载链接

链接失效反馈

官方服务：

资源简介：

“A Blue Start”是一个大规模网络数据集，包含2670万用户、16亿双向关注关系以及30.13万个群组，这些群组代表用户创建的“入门包”。该数据集旨在填补高阶网络科学数据集的空白，为研究群体现象、开发针对性的算法和度量提供了宝贵的资源。此外，该数据集对于研究通信和人机交互等领域也具有重要意义，为探索在线社交网络数据在科学领域的广泛应用提供了新的可能性。

"A Blue Start" is a large-scale network dataset encompassing 26.7 million users, 1.6 billion bidirectional follow relationships, and 301,300 groups, which represent the "onboarding packages" created by users. This dataset aims to fill the gap in high-order network science datasets, serving as a valuable resource for investigating collective phenomena and developing targeted algorithms and metrics. Furthermore, this dataset holds substantial significance for research in fields such as communication and human-computer interaction, and provides new possibilities for exploring the wide-ranging applications of online social network data in scientific research.

提供机构：

东北大学网络科学研究所, 波士顿, 马萨诸塞州, 美国

创建时间：

2025-05-17

搜集汇总

数据集介绍

构建方式

A Blue Start数据集构建于Bluesky社交媒体平台的公开API之上，通过系统性地收集用户间的关注关系和用户创建的“starter packs”列表。研究团队首先从Bluesky的DID PLC目录中提取了所有用户的去中心化标识符（DID），随后利用异步编程技术高效地查询了每个用户的关注列表和starter packs信息。数据收集过程严格遵守了API的速率限制，并采用了匿名化处理，将用户DID转换为唯一整数标识符，以确保用户隐私。

特点

A Blue Start数据集以其大规模和高阶交互特性脱颖而出，包含了2670万用户、16亿对关注关系以及30.1万个starter packs。这一数据集不仅提供了传统的二元网络结构，还通过starter packs捕捉了群体形成的高阶动态，为研究社交网络中的群体行为和信息传播机制提供了独特视角。数据集的异构性和时间戳信息进一步支持了复杂网络分析和动态建模的需求。

使用方法

该数据集支持多种分析框架，包括传统的图论方法和高阶网络分析工具。研究者可利用提供的JSON、CSV和HIF格式文件，进行网络结构分析、社区检测或信息传播模拟。对于大规模数据处理，建议使用分布式计算工具如dask以优化内存使用。此外，数据集中的时间信息可用于时序分析，探索网络演化规律。为保护隐私，所有用户标识已匿名化处理，但节点ID在关注网络和starter packs网络中保持一致，确保了跨网络分析的可行性。

背景与挑战

背景概述

A Blue Start数据集由美国东北大学网络科学研究所、太平洋西北国家实验室等机构的研究团队于2025年发布，旨在填补高阶社交网络研究领域的数据空白。该数据集基于去中心化社交平台Bluesky的公开API，捕获了2670万用户间的16亿对关注关系和30.1万个用户创建的'入门包'（Starter Packs）群体交互数据。其核心价值在于首次同时整合了传统的二元网络结构（关注关系）与创新的高阶交互形式（群体推荐列表），为研究信息传播、群体形成等社交动力学提供了多尺度分析框架。该数据集对计算社会科学、数学流行病学等领域具有显著影响，特别是在Twitter等平台数据获取受限的背景下，成为研究新兴社交生态系统的关键资源。

当前挑战

该数据集面临双重挑战：在科学问题层面，需解决高阶交互网络中长期存在的理论验证难题——传统二元网络模型无法准确刻画群体动态（如'入门包'的协同过滤机制）、信息跨群体传播路径等复杂现象；在构建技术层面，研究者需处理Bluesky平台实时增长的数据动态性（日均27GB数据量）、用户通过API篡改元数据造成的负账户年龄异常，以及将分散式身份标识（DID）匿名化为整数ID时保持网络结构一致性的算法挑战。此外，'入门包'与关注网络的结构差异性（仅29%的排名相关性）要求开发新的跨网络分析方法。

常用场景

经典使用场景

在社交网络分析领域，'A Blue Start'数据集以其独特的二元与高阶交互结构，为研究者提供了探索群体动态的全新视角。该数据集最经典的应用场景在于分析用户通过'starter packs'形成的群体互动模式，这种机制允许用户通过一次性关注列表中的多个账户来快速扩展社交圈。研究者可以借此深入剖析社交网络中的信息传播路径、群体形成机制以及用户行为模式，尤其适用于研究去中心化社交平台中特有的网络增长动力学。

衍生相关工作

基于该数据集衍生的经典研究主要集中在三个方向：一是高阶网络度量方法的创新，如开发针对starter packs重叠模式的新型拓扑指标；二是社交动力学建模，包括群体形成与解体的时序分析；三是跨平台比较研究，探讨去中心化与中心化社交网络的结构差异。相关工作已推动《Nature Communications》等期刊发表关于时序高阶网络动力学的突破性成果，并为图机器学习领域提供了重要的基准测试数据。

数据集最近研究