five

artificial social network dataset

收藏
github2026-01-26 更新2026-01-27 收录
下载链接:
https://github.com/prrao87/graph-benchmark
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个人工生成的社交网络数据集,包含10万个人物档案及其关联的连接,如人物之间的关注关系、居住城市、兴趣爱好等。数据集通过Python的Faker库生成,可以扩展数据规模以测试更大图上的查询性能。数据以Parquet格式存储,包含人物、城市、州、国家和兴趣等节点,以及它们之间的关系。

This is an artificially generated social network dataset containing 100,000 person profiles and their associated connections, such as follow relationships between individuals, cities of residence, hobbies, and other related attributes. Generated using Python's Faker library, the dataset supports scaling up its size to test query performance on larger-scale graphs. Stored in Parquet format, the dataset includes nodes such as persons, cities, states, countries, and interests, along with the relationships between these nodes.
创建时间:
2026-01-25
原始信息汇总

Graph Benchmarks 数据集概述

数据集基本信息

  • 数据集名称: Graph Benchmarks 社交网络数据集
  • 数据集用途: 用于图数据库系统在多跳检索和查询性能方面的基准测试。
  • 数据生成方式: 使用 Python 的 Faker 库生成人工合成的社交网络数据。

数据内容与规模

  • 核心实体: 包含 100,000 个个人(Person)资料。
  • 节点类型:
    • Person(个人)
    • City(城市)
    • State(州/省)
    • Country(国家)
    • Interest(兴趣)
  • 关系类型:
    • Person FOLLOWS Person
    • Person LIVES_IN City
    • Person HAS_INTEREST Interest
    • City CITY_IN State
    • State STATE_IN Country
  • 数据规模(以 100,000 个人为例):
    • 节点总数: 约 108,504 个(100,000 个人 + 7,117 个城市 + 273 个州 + 3 个国家 + 41 个兴趣)
    • 边总数: 约 2,417,738 条

图模式

  • 描述了个人、城市、州、国家和兴趣节点之间的连接关系。
  • 个人可以关注其他个人,居住在城市,并拥有兴趣。
  • 城市属于州,州属于国家。

数据生成与格式

  • 生成脚本: 根目录下的 generate_data.sh 脚本。
  • 使用方式: bash generate_data.sh [人数],例如 bash generate_data.sh 100000
  • 输出格式: Parquet 格式。
  • 可扩展性: 可通过调整脚本参数生成更大规模的数据集(例如 1 亿个人和约 25 亿条边)。

基准测试查询

数据集用于执行以下 9 个查询以比较不同图系统的性能:

  1. 前 3 名最受关注的人是谁?
  2. 最受关注的人居住在哪个城市?
  3. 特定国家中网络平均年龄最低的 5 个城市是哪些?
  4. 每个国家有多少年龄在 30-40 岁之间的人?
  5. 英国伦敦有多少男性对美食感兴趣?
  6. 哪个城市拥有最多喜欢网球的女性?
  7. 哪个美国州拥有最多年龄在 23-30 岁之间且喜欢摄影的人?
  8. 图中存在多少条二阶路径?
  9. 图中存在多少条从 50 岁的人到 25 岁以上的人的路径?

性能基准结果

测试对比了 Neo4j、Kuzu、Ladybug 和 Lance-graph 系统在上述查询上的执行时间(毫秒)。

查询 neo4j (ms) kuzu (ms) ladybug (ms) lance-graph (ms)
q1 1616 138 135 22
q2 390 228 215 45
q3 34 6 6 7
q4 37 10 10 5
q5 7 11 11 5
q6 18 27 27 5
q7 116 11 11 6
q8 3012 7 7 132
q9 3124 86 88 117

相关资源

  • 图模式可视化: https://github.com/prrao87/graph-benchmark/blob/main/assets/graph-schema.png
  • 子图可视化: https://github.com/prrao87/graph-benchmark/blob/main/assets/subgraph.png
  • 基准测试结果图: https://github.com/prrao87/graph-benchmark/blob/main/results/benchmark_plot.png
  • 结果解释: 位于 ./results/ 目录下。
搜集汇总
数据集介绍
main_image_url
构建方式
在社交网络分析领域,人工生成的数据集为图数据库性能评估提供了可控且可扩展的基准。该数据集通过Python脚本与Faker库协同构建,模拟了包含人物、兴趣与地理位置的真实社交网络结构。生成过程以指定的人物数量作为输入参数,依次创建人物节点及其属性,并基于预设的图模式自动生成城市、州、国家及兴趣节点。节点间的边关系,如关注、居住与兴趣关联,通过随机算法建立,确保网络具备丰富的连接性,最终输出为Parquet格式,便于后续的图数据库导入与查询分析。
特点
该数据集的核心特征在于其高度结构化与可扩展性。图模式定义了人物、城市、州、国家及兴趣五类节点,以及关注、居住、兴趣关联等多类型边关系,形成了层次分明的社交网络拓扑。数据生成过程引入了超级节点与团簇结构,模拟了真实社交网络中存在的中心枢纽与密集子图现象。此外,数据集规模可通过参数灵活调整,支持从十万级到亿级节点的生成,为不同规模的图系统性能测试提供了基础。生成的数据兼具属性多样性,涵盖年龄、性别、地理位置等维度,适用于多跳遍历、聚合过滤等复杂查询场景。
使用方法
该数据集主要用于图数据库系统的性能基准测试与比较研究。用户首先通过提供的Shell脚本生成指定规模的Parquet格式数据,随后可按照不同图数据库(如Neo4j、Ladybug等)的导入指南,将数据载入图系统中。数据集配套了一系列多跳遍历与聚合查询示例,涵盖最受关注人物识别、人口统计分布分析、兴趣与地理关联探索等典型社交网络问题。研究者可通过运行这些查询,对比不同图引擎在查询响应时间、资源消耗等方面的表现,从而评估系统在处理大规模关联数据时的效率与可扩展性。
背景与挑战
背景概述
在社交网络分析与图数据库性能评估领域,人工合成数据集扮演着至关重要的角色,它们为系统测试与算法验证提供了可控且可扩展的数据环境。该人工社交网络数据集由Data Quarry团队于2025年创建,旨在构建一个包含人物、兴趣与地理位置节点的多关系图结构,以支持对图数据库系统在多跳遍历、聚合查询等复杂操作上的性能基准测试。该数据集通过模拟真实社交网络的拓扑特性,如超级节点与团簇结构,为评估Kuzu、Neo4j、Ladybug及Lance-Graph等新兴图引擎的查询效率与可扩展性提供了标准化基础,推动了图数据管理技术的迭代与优化。
当前挑战
该数据集致力于解决社交网络分析中多跳查询与复杂图遍历的性能评估挑战,其核心问题在于如何高效处理大规模图上涉及过滤、聚合及路径发现的混合工作负载。在构建过程中,挑战主要源于数据生成的可控性与真实性平衡:一方面需利用Faker库合成具有统计合理性的属性数据,另一方面需确保图结构的连通度与分布特征(如超级节点与团簇)符合社交网络动力学;同时,跨系统复现时因随机数生成差异可能导致数据一致性波动,需通过算法设计保证宏观趋势的稳定性。此外,将数据集扩展至亿级节点与边规模时,Python生成效率的瓶颈也凸显出对高性能数据合成工具的需求。
常用场景
经典使用场景
在社交网络分析领域,人工社交网络数据集常被用于模拟真实世界中的用户连接与交互行为。该数据集通过生成包含人物、兴趣和地理位置等节点的图结构,为研究者提供了一个可控且可扩展的测试环境。经典使用场景包括评估图数据库在多跳遍历查询中的性能,例如识别网络中的关键影响者或分析用户兴趣的地理分布模式。
解决学术问题
该数据集有效解决了图数据管理中的核心学术问题,特别是在大规模图查询优化方面。它通过提供标准化的基准测试框架,帮助研究者比较不同图引擎在复杂查询(如路径查找、聚合过滤)上的效率差异。其意义在于推动了图查询处理算法的创新,例如混合连接和因子化技术的应用,为图数据库系统的性能评估建立了可靠基准。
衍生相关工作
围绕该数据集衍生的经典工作包括Kùzu图数据库系统的研发,其基于因子化与混合连接算法的查询引擎显著提升了多跳遍历效率。后续项目如Ladybug和lance-graph进一步扩展了该基准的应用范围,推动了开源图计算工具的发展。这些工作共同促进了图查询优化理论在分布式系统中的实践与演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作