ArangoDB Example graph data
收藏github2023-10-20 更新2024-05-31 收录
下载链接:
https://github.com/arangodb/example-datasets
下载链接
链接失效反馈官方服务:
资源简介:
此仓库包含用于ArangoDB的图形数据集,包括随机用户数据、城市、国家、地区、麦当劳位置、德国县和机场等数据集。
This repository contains graph datasets for ArangoDB, including random user data, cities, countries, regions, McDonald's locations, German counties, and airports.
创建时间:
2012-05-23
原始信息汇总
数据集概述
1. 数据集内容
-
Fake user data
- 包含随机用户信息,存储在"RandomUsers"目录中。
- 用户信息包括姓名、性别、生日、联系方式等。
- 导入命令:
arangoimp --file names_XXX.json --collection=users --create-collection=true --type=json
-
Cities
- 包含约320000个城市及其地理信息。
- 导入命令:
arangoimp --file GeoLiteCity.csv --collection=cities --create-collection=true --type=csv
-
Countries
- 包含241个国家及其维基百科链接。
- 导入命令:
arangoimp --file countries.csv --collection=countries --create-collection=true --type=csv
-
Regions
- 包含约4100个地区及其维基百科链接。
- 导入命令:
arangoimp --file regions.csv --collection=regions --create-collection=true --type=csv
-
McDonalds
- 包含约1200个法国麦当劳的地理坐标。
- 导入命令:
arangoimp --file france.csv --collection=mcdonalds --create-collection=true --type=csv
-
Bezirke
- 包含169431个德国县的地理信息。
- 导入命令:
arangoimp --file bezirke.csv --collection=bezirke --create-collection=true --type=csv
-
Airports
- 包含约44000个机场及其地理信息。
- 导入命令:
arangoimp --file airports.csv --collection=airports --create-collection=true --type=csv
-
IP Address Ranges
- 包含3.7百万个IP地址范围及其地理信息。
- 导入命令:
arangoimp --file geoblocks.json --collection=ip_ranges --create-collection=true --type=json
-
Graphs Airline Company
- 包含一个航空公司的小部分机场和航线数据。
- 导入命令:
arangorestore --input-directory "<path-to>/AirlineCompany"
-
Graphs IMDB
- 包含从IMDB获取的数据集。
- 导入命令:
arangosh> require("internal").load("Graphs/IMDB/import.js")
-
Debian Dependency Graph
- 包含Debian软件包的依赖关系图。
- 导入命令:
arangorestore --input-directory DebianDependencyGraph/
-
Game of Thrones
- 包含一个小型的多用途数据集,包括父母和孩子的关系图。
- 详细信息见README
-
Amazon Meta
- 包含亚马逊产品共同购买网络的元数据。
- 数据来源:https://snap.stanford.edu/data/amazon-meta.html
2. 数据集用途
- 用于与ArangoDB数据库配合使用的示例图数据。
- 包含多种类型的数据,如用户信息、地理信息、IP地址范围等,适用于不同的数据分析和处理需求。
3. 数据集特点
- 数据集大小超过1GB,需要较大存储空间和时间进行克隆。
- 数据组织成图形式,便于在ArangoDB中进行图数据处理和分析。
搜集汇总
数据集介绍

构建方式
ArangoDB示例图数据集的构建方式主要依赖于多种数据源的整合与转换。数据集包含了随机用户数据、城市地理信息、国家与地区信息、麦当劳位置数据、德国行政区划、机场信息、IP地址范围、DBLP计算机科学文献、航空公司航线、IMDB电影数据、Debian依赖关系图以及《权力的游戏》角色关系图等。这些数据通过ArangoDB的导入工具(如arangoimp和arangorestore)进行批量导入,部分数据还通过自定义脚本(如wikiimporter和dblp2json.py)从原始格式转换为JSON或CSV格式,以便于图数据库的高效存储与查询。
特点
该数据集的特点在于其多样性和广泛的应用场景。数据集涵盖了从地理信息到社交网络、从文献引用到软件依赖关系的多种数据类型,适用于图数据库的多种应用场景。例如,随机用户数据可用于社交网络分析,城市与机场数据可用于地理信息系统,DBLP文献数据可用于学术引用网络分析,而Debian依赖关系图则可用于软件包管理系统的研究。此外,数据集中的部分数据(如IMDB和《权力的游戏》)还特别适用于图可视化工具的演示与教学。
使用方法
使用该数据集时,用户需首先通过ArangoDB提供的工具(如arangoimp和arangorestore)将数据导入到数据库中。对于不同的数据类型,导入命令略有差异,例如JSON格式的数据使用`--type=json`参数,CSV格式的数据使用`--type=csv`参数。导入后,用户可以通过ArangoDB的图查询语言进行复杂的关系分析,或利用其图可视化工具进行数据展示。对于特定数据集(如IMDB和Debian依赖关系图),还提供了专门的导入脚本和示例代码,以便用户快速上手并探索数据中的潜在关系。
背景与挑战
背景概述
ArangoDB Example graph data 数据集由ArangoDB团队创建,旨在为图数据库研究与应用提供丰富的示例数据。该数据集涵盖了多个领域的数据,包括用户信息、地理信息、机场数据、IP地址范围、电影数据库(IMDB)以及软件包依赖关系等。这些数据以图结构组织,便于在图数据库中进行复杂查询和分析。ArangoDB作为一个多模型数据库,支持文档、键值和图数据模型,该数据集的创建进一步推动了图数据库在社交网络分析、推荐系统、地理信息系统等领域的应用。
当前挑战
该数据集在构建过程中面临的主要挑战包括数据规模庞大、数据格式多样以及数据整合的复杂性。首先,数据集的总大小超过1GB,下载和处理这些数据需要大量的存储空间和计算资源。其次,数据集包含多种数据格式(如JSON、CSV等),需要开发相应的工具进行数据导入和转换。此外,数据整合过程中需要确保不同数据源之间的关联性和一致性,尤其是在构建图结构时,如何有效处理节点和边的关联关系是一个技术难点。这些挑战不仅考验了数据处理工具的性能,也对图数据库的扩展性和灵活性提出了更高的要求。
常用场景
经典使用场景
ArangoDB Example graph data 数据集广泛应用于图数据库的研究与开发中,尤其是在社交网络分析、地理信息系统(GIS)和推荐系统等领域。通过该数据集,研究人员可以模拟复杂的图结构,进行图算法的性能测试和优化。例如,在社交网络分析中,数据集中的用户关系图可以用于研究社区检测、影响力传播等经典问题。
解决学术问题
该数据集为图数据库领域的研究提供了丰富的实验数据,解决了图算法验证、图数据库性能评估等学术问题。通过模拟真实世界的图结构,研究人员能够深入探讨图遍历、最短路径计算、子图匹配等核心算法的效率与准确性。此外,数据集中的地理信息数据还为空间数据管理和查询优化提供了重要参考。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,图数据库性能优化工具的开发、社交网络分析算法的改进以及地理信息系统的扩展应用。此外,数据集还被用于教学和培训,帮助开发者和研究人员快速掌握图数据库的使用技巧。这些衍生工作进一步推动了图数据库技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



