nebula-graph-shareolding-dataset

github2024-04-20 更新2024-05-31 收录

下载链接：

https://github.com/wey-gu/nebula-shareholding-example

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于股权关系穿透的数据集，包含了公司和个人之间的股权关系，以及公司之间的分支关系和股权持有情况。数据集通过随机生成的方式创建，用于图数据库Nebula Graph的示例和演示。

This is a dataset concerning equity relationship penetration, encompassing equity relationships between companies and individuals, as well as branch relationships and equity holdings among companies. The dataset is created through random generation and is intended for use as an example and demonstration in the graph database Nebula Graph.

创建时间：

2021-07-14

原始信息汇总

数据集概述

数据模型

数据集中的关系简化为两种实体类型：person 和 corp，以及以下关系类型：

person 持有 corp 的股份百分比为 {share} %
person 与另一个 person 有亲属关系
corp 持有另一个 corp 的股份百分比为 {share} %
corp 可以是另一个 corp 的分支
person 可以担任 corp 的角色

在 Nebula Graph 中，这些关系通过以下 SQL 语句定义：

sql CREATE TAG person(name string); CREATE TAG corp(name string); CREATE EDGE role_as(role string); CREATE EDGE is_branch_of(); CREATE EDGE hold_share(share float); CREATE EDGE reletive_with(degree int);

数据生成

数据集通过 data_generator.py 脚本随机生成，生成的数据存储在 .csv 文件中，这些文件包括：

corp.csv
corp_rel.csv
corp_share.csv
person.csv
person_corp_role.csv
person_corp_share.csv
person_rel.csv

数据导入

使用 Nebula-Importer 工具将 .csv 文件中的数据导入到 Nebula Graph 数据库中。导入过程通过 nebula-importer.yaml 配置文件进行配置。

查询示例

在 Nebula Graph 中，可以通过 nGQL 语言查询公司 c_132 的所有关系，示例查询如下：

sql GO 1 TO 3 STEPS FROM "c_132" over * BIDIRECT

此查询将返回与 c_132 相关的所有实体和关系。

搜集汇总

数据集介绍

构建方式

该数据集通过模拟公司股权关系构建，简化了复杂的股权关系网络，仅包含两种实体：个人（person）和公司（corp），并通过多种关系类型进行连接，如个人持有公司股份、公司之间相互持股、个人之间存在亲属关系等。数据生成过程采用随机生成的方式，利用Python库Faker和pydbgen生成模拟数据，并将其存储在多个CSV文件中，如corp.csv、person.csv等。生成的数据符合预定义的图模型结构，便于后续导入分布式图数据库Nebula Graph。

使用方法

用户可以通过Nebula Graph的导入工具将生成的CSV数据文件导入到Nebula Graph数据库中，导入过程配置简单，支持通过Docker快速部署和运行。导入完成后，用户可以使用Nebula Graph的查询语言nGQL进行复杂的图查询，如查询某个公司或个人的股权关系网络。此外，用户还可以通过Nebula Graph Studio进行可视化探索，直观地查看和分析股权关系。数据集的生成和导入过程均提供了详细的文档和示例，便于用户快速上手。

背景与挑战

背景概述

nebula-graph-shareholding-dataset 数据集是由开源分布式图数据库 Nebula Graph 支持的一个股权关系突破的演示数据集。该数据集由主要研究人员通过随机生成的方式创建，旨在展示如何利用图数据库技术来分析复杂的股权关系。数据集包含了两种主要实体：个人和公司，以及它们之间的多种关系类型，如持股、亲属关系、公司分支等。通过这一数据集，研究人员和开发者可以探索图数据库在处理复杂关系网络中的潜力，尤其是在金融和法律领域的应用。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何有效地模拟和生成复杂的股权关系网络，确保数据的多样性和真实性。其次，数据导入过程中需要处理大规模数据的高效性和准确性，尤其是在分布式图数据库环境中。此外，查询和分析这些复杂关系时，如何优化查询性能和可视化展示也是一个重要的挑战。这些挑战不仅反映了数据集构建的技术难度，也凸显了图数据库在处理复杂关系数据时的独特优势和潜力。

常用场景

经典使用场景

nebula-graph-shareolding-dataset数据集的经典使用场景主要集中在企业股权关系的分析与可视化。通过构建包含个人与公司两种实体及其复杂关系的图模型，研究者能够深入探索股权结构中的隐含联系，如股东之间的关联、公司间的持股关系以及分支机构的层级结构。这种图数据库的特性使得复杂股权网络的查询与分析变得高效且直观，尤其适用于金融风险评估、反欺诈调查以及企业治理研究等领域。

解决学术问题

该数据集解决了在企业股权结构研究中常见的复杂关系建模与分析问题。传统的表格数据难以表达多层次、多维度的股权关系，而图数据库的引入使得这些复杂关系得以清晰呈现。通过该数据集，研究者能够更有效地识别股权网络中的关键节点、检测潜在的利益冲突以及评估企业间的控制链。这不仅提升了学术研究的深度与广度，还为相关领域的政策制定与风险管理提供了科学依据。

实际应用

在实际应用中，nebula-graph-shareolding-dataset广泛应用于金融监管、企业风险管理以及法律合规等领域。例如，金融机构可以利用该数据集进行股权穿透分析，识别潜在的关联交易与利益输送；监管机构则可以通过该数据集监控企业间的复杂股权关系，防范系统性金融风险。此外，企业内部治理也可借助该数据集优化股权结构，提升透明度与合规性。

数据集最近研究