five

LDBC SNB SF1

收藏
github2026-02-11 更新2026-02-11 收录
下载链接:
https://github.com/prrao87/graph-benchmark-ldbc
下载链接
链接失效反馈
官方服务:
资源简介:
该仓库包含LDBC社交网络基准测试(SNB)的规模因子为1(SF1)的数据集。数据集包含3.1M个节点和17M个关系,涉及8种节点类型和23种关系类型。

This repository contains the dataset with scale factor 1 (SF1) of the LDBC Social Network Benchmark (SNB). This dataset comprises 3.1 million nodes and 17 million relationships, covering 8 node types and 23 relationship types.
创建时间:
2026-01-28
原始信息汇总

LDBC SNB SF1 数据集概述

数据集基本信息

  • 数据集名称:LDBC Social Network Benchmarks (SNB) SF1
  • 来源:官方源(https://ldbcouncil.org/benchmarks/snb/datasets/)
  • 存储库目的:用于研究和比较不同图系统在既定基准数据集上的性能。

数据集规模与结构

  • 规模因子:1 (SF1)
  • 图结构:包含8种节点类型和23种关系类型。
  • 节点总数:3,181,724
  • 关系总数:17,256,038

节点类型与数量

  • Comment: 2,052,169
  • Forum: 90,492
  • Organisation: 7,955
  • Person: 9,892
  • Place: 1,460
  • Post: 1,003,605
  • Tag: 16,080
  • Tagclass: 71

关系类型与数量

  • commentHasCreator: 2,052,169
  • commentHasTag: 2,698,393
  • commentIsLocatedIn: 2,052,169
  • containerOf: 1,003,605
  • forumHasTag: 309,766
  • hasInterest: 229,166
  • hasMember: 1,611,869
  • hasModerator: 90,492
  • hasType: 16,080
  • isPartOf: 1,454
  • isSubclassOf: 70
  • knows: 180,623
  • likeComment: 1,438,418
  • likePost: 751,677
  • organisationIsLocatedIn: 7,955
  • personIsLocatedIn: 9,892
  • postHasCreator: 1,003,605
  • postHasTag: 713,258
  • postIsLocatedIn: 1,003,605
  • replyOfComment: 1,040,749
  • replyOfPost: 1,011,420
  • studyAt: 7,949
  • workAt: 21,654

基准测试查询

  • 查询套件:包含30个查询。
  • 查询特点:涉及通过n跳路径遍历访问各种节点,应用了不同基数、过滤器和投影,以更全面地了解查询性能。

参与比较的图系统

  • Neo4j
  • Kuzu (已归档)
  • Ladybug
  • lance-graph

性能结果摘要

性能比较基于30个查询的执行时间(毫秒),并与Neo4j进行加速比对比。

代表性查询性能对比

  • q1: Neo4j (4.9ms), Kuzu (2.3ms, 2.2x), Ladybug (2.1ms, 2.3x), lance-graph (1.6ms, 3.1x)
  • q20: Neo4j (475.7ms), Kuzu (11.9ms, 39.9x), Ladybug (10.9ms, 43.6x), lance-graph (2.6ms, 183.6x)
  • q30: Neo4j (1255.2ms), Kuzu (158.7ms, 7.9x), Ladybug (154.4ms, 8.1x), lance-graph (31.3ms, 40.1x)

数据获取与使用

  • 下载方式
    1. 运行提供的Python脚本 download_dataset.py
    2. 手动从 https://datasets.ldbcouncil.org/snb-interactive-v1/social_network-sf1-CsvComposite-StringDateFormatter.tar.zst 下载并解压。
  • 数据模式:模式图位于 assets/ldbc-snb-schema.png
  • 数据注入:需参考各系统子目录中的说明将数据注入图系统。
  • 查询详情:各查询的具体实现位于各系统目录的 query.py 文件中。

结果可视化

  • 各查询最快和最慢系统的热力图位于 results/benchmark_heatmap.png
搜集汇总
数据集介绍
main_image_url
构建方式
在社交网络分析领域,LDBC SNB SF1数据集作为图数据库性能评估的基准,其构建过程遵循严谨的标准化流程。该数据集源自LDBC官方发布的社交网络基准测试,通过模拟真实社交互动场景生成,包含八种节点类型和二十三种关系类型,总计约318万个节点与1725万条关系。数据以CSV复合格式提供,采用字符串日期格式化,确保了时间信息的统一处理。构建时通过脚本自动化下载并解压原始数据包,随后依据预设的图模式进行数据导入,形成结构完整且高度互联的社交网络图谱,为后续的系统性能对比奠定了坚实基础。
使用方法
使用该数据集时,研究人员需首先通过提供的Python脚本或手动从LDBC官网下载数据压缩包,并利用依赖管理工具配置本地环境。数据导入阶段,可根据目标图系统(如Neo4j、Kuzu等)的专用指南,将CSV格式的原始数据转换为内部图表示。完成图谱构建后,用户可运行预定义的三十条查询脚本,这些查询涉及路径探索、属性过滤与结果聚合等多种操作,用以评估系统的响应时间与吞吐量。通过对比不同系统在各查询上的执行性能,能够获得对图处理技术优劣的客观洞察,进而推动图计算引擎的优化与创新。
背景与挑战
背景概述
LDBC SNB SF1数据集源自关联数据基准委员会(LDBC)推出的社交网络基准测试项目,旨在为图数据库系统提供一个标准化、可复现的性能评估框架。该数据集模拟了真实社交网络的复杂结构,包含约318万个节点和1725万条关系,覆盖人物、论坛、帖子等多种实体类型及其交互。自创建以来,LDBC SNB已成为图计算领域的重要基准,推动了Neo4j、Kuzu等系统在查询优化、分布式处理等方面的技术演进,为学术界和工业界提供了评估图系统处理能力的权威依据。
当前挑战
该数据集致力于解决图数据库系统在复杂社交网络查询中的性能评估挑战,其核心在于如何通过多样化的查询负载(如多跳遍历、过滤投影)全面衡量系统的处理效率。构建过程中的挑战主要体现在生成高度逼真且规模可扩展的社交图数据,需确保数据分布符合真实世界的统计特性,同时维持实体间关系的逻辑一致性。此外,设计涵盖不同计算模式的30个查询用例,以平衡工作负载的覆盖范围与基准测试的可行性,亦是数据集构建的关键难点。
常用场景
经典使用场景
在社交网络分析领域,LDBC SNB SF1数据集常被用于评估图数据库系统的性能表现。该数据集模拟了包含约318万个节点和1725万条边的社交网络结构,通过30个精心设计的查询覆盖了多跳路径遍历、过滤与投影等复杂操作。研究人员利用这一基准测试,能够系统性地比较不同图系统在处理大规模社交图数据时的查询效率与可扩展性,为图计算技术的优化提供了标准化评估框架。
解决学术问题
该数据集有效解决了图数据库领域缺乏统一性能评估基准的学术难题。通过提供结构丰富、规模可控的社交网络图数据,它使得研究者能够客观量化不同系统在复杂查询场景下的表现差异。其意义在于推动了图查询优化算法、索引结构设计以及分布式图处理框架的创新发展,为图计算系统的性能瓶颈分析与改进提供了实证基础。
实际应用
在实际应用中,LDBC SNB SF1数据集为商业图数据库产品的选型与调优提供了关键参考。企业可依据该基准的测试结果,评估Neo4j、Kuzu等系统在社交推荐、欺诈检测或知识图谱查询等场景中的适用性。同时,该数据集也常用于云计算环境中图服务性能的标准化测试,助力工程团队构建高效稳定的图数据平台。
数据集最近研究
最新研究方向
在社交网络分析领域,LDBC SNB SF1数据集作为图数据库性能评估的基准,其最新研究聚焦于新兴图系统架构的横向对比与优化。前沿探索围绕多跳路径遍历、异构图查询性能展开,通过涵盖不同基数、过滤与投影操作的30项查询,深入剖析Neo4j、Ladybug、lance-graph等系统的执行效率差异。热点事件体现在开源图计算框架的迭代更新,如Kuzu的归档与新型系统的涌现,推动了分布式图处理与内存计算技术的演进。这一研究方向不仅为工业界选型提供实证依据,更促进了图查询优化算法与硬件加速技术的融合,对构建高效、可扩展的社交网络应用具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作