Covid Track Graph Dataset

github2022-12-08 更新2024-05-31 收录

下载链接：

https://github.com/wey-gu/covid-track-graph-datagen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于Covid跟踪的图形数据集，包含了人员、地址、街道、城市、省份等实体及其关系。数据集通过生成器创建，用于模拟Covid跟踪场景中的数据流动。

This dataset is a graph dataset designed for COVID tracking, encompassing entities such as individuals, addresses, streets, cities, and provinces, along with their interrelationships. It is generated by a simulator to emulate the data flow in COVID tracking scenarios.

创建时间：

2022-03-22

原始信息汇总

数据集概述

数据结构

顶点（Vertex）:

人: id: string, name: string, is_confirmed: bool, confirmed_at: datetime
地址: id: string, name: string, street_id: string
街道: id: string, name: string, city_id: string
城市: id: string, name: string, province_id: string
省份: id: string, name: string
行政区: id: string, name: string, city_id: string
村镇: id: string, name: string, district_id: string

边（Edge）:

同住: sid, did, start_time, end_time
到访: sid, did, start_time, end_time
属于: sid, did
- sid: 源ID，可为{地址, 行政区, 街道, 村镇, 城市} ID
- did: 目标ID，可为{行政区, 街道, 村镇, 城市, 省份} ID

数据生成

依赖安装: python3 -m pip install -r requirements.txt
数据生成: python3 data_generator.py
数据文件: 共9个文件，包括address.csv, city.csv, district.csv, person.csv, person_livewith.csv, person_visit.csv, province.csv, street.csv, town.csv

数据示例

address.csv: 包含地址ID、名称和街道ID。
city.csv: 包含城市ID、名称和省份ID。
district.csv: 包含行政区ID、名称和城市ID。
person.csv: 包含人员ID、姓名和是否确认。
person_livewith.csv: 记录人员同住关系，包括起始和结束时间。
person_visit.csv: 记录人员到访地址，包括起始和结束时间。
province.csv: 包含省份ID和名称。
street.csv: 包含街道ID、名称和村镇ID。
town.csv: 包含村镇ID、名称和行政区ID。

数据导入

使用nebula-importer工具将数据集导入NebulaGraph。
配置文件参考nebula-importer-config.yaml。
通过Docker网络nebula-net进行数据导入。

搜集汇总

数据集介绍

构建方式

Covid Track Graph Dataset的构建基于图数据库NebulaGraph，通过定义顶点（Vertex）和边（Edge）的模式来模拟疫情追踪场景。顶点包括人员、地址、街道、城市、省份等实体，边则描述了这些实体之间的关系，如同住、到访、属于等。数据生成过程通过Python脚本实现，生成了多个CSV文件，分别存储不同类型的顶点和边信息。这些文件随后可以通过NebulaGraph的导入工具加载到图数据库中，形成一个完整的疫情追踪图。

特点

该数据集的特点在于其高度结构化的图数据模型，能够有效模拟疫情传播过程中的人员流动和接触关系。数据集中的顶点和边均带有时间戳，能够精确记录事件发生的时间范围，便于进行时间序列分析。此外，数据集还提供了丰富的索引机制，支持对顶点和边的快速查询，极大地提升了数据检索的效率。

使用方法

使用该数据集时，首先需要安装NebulaGraph并创建相应的图空间和模式。随后，通过NebulaGraph的导入工具将生成的CSV文件加载到图数据库中。加载完成后，用户可以通过NebulaGraph的查询语言对数据进行复杂的图分析，如查找特定人员的接触链、分析疫情传播路径等。数据集的使用不仅限于疫情追踪，还可应用于其他需要复杂关系分析的场景，如社交网络分析、供应链管理等。

背景与挑战

背景概述

Covid Track Graph Dataset 是一个专注于COVID-19疫情追踪的图数据集，由研究人员和开发者在疫情期间创建，旨在通过图数据结构模拟和分析人与人之间的接触关系及其地理位置信息。该数据集的核心研究问题是通过图模型追踪感染路径，帮助公共卫生部门更有效地进行疫情监控和防控。数据集中的顶点包括人、地址、街道、城市、省份等实体，边则描述了人与人之间的同住关系、到访地点等行为。该数据集在疫情分析和图数据库研究领域具有重要影响力，为研究者提供了丰富的实验数据。

当前挑战

Covid Track Graph Dataset 面临的挑战主要体现在两个方面。首先，在领域问题方面，如何准确模拟和追踪复杂的人际接触网络是一个关键挑战，尤其是在大规模数据场景下，如何高效地查询和分析感染路径成为难题。其次，在数据构建过程中，数据的完整性和一致性是主要挑战。由于数据来源多样且实时性要求高，确保数据的准确性和及时更新需要复杂的处理流程。此外，数据隐私保护也是一个不可忽视的问题，如何在数据共享和分析中平衡隐私与实用性，是该数据集构建过程中需要解决的难题。

常用场景

经典使用场景

Covid Track Graph Dataset 主要用于模拟和分析COVID-19疫情期间的人员流动和接触情况。通过构建包含人员、地址、街道、城市等多层次节点的图结构，研究者可以追踪感染者的活动轨迹，分析病毒传播的路径和速度，从而为疫情防控提供数据支持。

衍生相关工作

基于该数据集，许多经典研究工作得以展开，如基于图神经网络的疫情传播预测模型、基于时空数据的风险区域识别算法等。这些研究不仅推动了图数据挖掘技术的发展，也为公共卫生领域的智能化决策提供了新的思路和方法。

数据集最近研究