Commuting Origin-Destination Matrix Generation Dataset

Name: Commuting Origin-Destination Matrix Generation Dataset
Creator: 清华大学电子工程系，南加州大学计算机科学系
Published: 2024-07-23 01:37:04
License: 暂无描述

arXiv2024-07-23 更新2024-07-24 收录

下载链接：

https://github.com/tsinghua-fib-lab/CommutingODGen-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由清华大学电子工程系和南加州大学计算机科学系联合创建，包含3,233个美国不同区域的通勤起讫点（OD）矩阵。每个区域的数据不仅包括通勤OD矩阵，还结合了区域属性，如人口统计和兴趣点。数据集的创建过程涉及从多个来源收集数据，包括美国社区调查（ACS）和OpenStreetMap等。该数据集旨在促进通勤OD矩阵生成模型的开发，特别是在城市规划和交通管理领域，解决缺乏历史数据的区域的通勤模式分析问题。

This dataset was co-created by the Department of Electronic Engineering of Tsinghua University and the Department of Computer Science of the University of Southern California, and contains 3,233 origin-destination (OD) commuting matrices across different regions in the United States. For each region, the dataset not only includes the commuting OD matrix but also integrates regional attributes such as demographic statistics and points of interest (POIs). The dataset construction process involved collecting data from multiple sources, including the American Community Survey (ACS) and OpenStreetMap, among others. This dataset aims to facilitate the development of commuting OD matrix generation models, particularly in the fields of urban planning and traffic management, to address the challenge of analyzing commuting patterns in regions with limited historical data.

提供机构：

清华大学电子工程系，南加州大学计算机科学系

创建时间：

2024-07-23

原始信息汇总

大规模通勤OD矩阵生成数据集

数据描述

区域空间特征

每个区域由人口统计和城市功能特征描述，这些特征来自美国人口普查局的美国社区调查（ACS）和OpenStreetMap的POI分布。人口统计包括基于年龄、性别、收入、教育等因素的区域人口结构，共包含97个维度。POI分为36个不同类别。区域之间的距离使用它们质心之间的平面欧几里得距离计算。

人口统计特征

总人口
男性人口
女性人口
不同年龄段的男性和女性人口
中位年龄
中位收入
工作类别
通勤时间
可用车辆
家庭和家庭规模
教育程度
贫困状况

POI特征

金融
公共设施
交通
娱乐
健康
服务
教育
政府
宗教
住宿
食品
咖啡馆
快餐
冰淇淋
酒吧
餐厅
美容店
服装店
精品店
交通商店
零售
商品
市场
家居改善
体育
公共交通
幼儿园
办公室
回收
旅行社
旅游
生活用品店
住宅
宿舍

通勤OD矩阵

使用2018年纵向雇主-家庭动态起源-目的地就业统计（LODES）数据集构建所有区域的OD矩阵。这些矩阵表示区域内的通勤流。每个OD矩阵的条目表示居住在一个区域并在另一个区域工作的个人的数量，有效地映射了不同区域之间的通勤模式。

基准实验

先决条件

进行基准实验需要准备包含必要库的Python环境。

Python版本: Python 3.8
所需库:
- numpy
- scikit-learn==1.3.0
- torch==2.1.0+cu118
- scipy==1.10.1
- dgl==1.1.2+cu117
- networkx==3.1

运行实验

基准实验的代码存储在./model/*目录中。每个模型特定的文件夹包含一个main.py文件，作为执行基准实验的入口点。运行特定基准实验，直接执行main.py文件。

实验结果

模型	CPC	RMSE	NRMSE	inflow	outflow	ODflow
GM-P	0.321	174.0	2.222	0.668	0.656	0.409
GM-E	0.329	162.9	2.080	0.652	0.637	0.422
SVR	0.420	95.4	1.218	0.417	0.555	0.410
RF	0.458	100.4	1.282	0.424	0.503	0.219
GBRT	0.461	91.0	1.620	0.424	0.491	0.233
DGM	0.431	92.9	1.186	0.469	0.561	0.230
GMEL	0.440	94.3	1.204	0.445	0.355	0.207
NetGAN	0.487	89.1	1.138	0.429	0.354	0.191
DiffODGen	0.532	74.6	0.953	0.324	0.270	0.149
WeDAN	0.593	68.6	0.876	0.291	0.269	0.147

搜集汇总

数据集介绍

构建方式

Commuting Origin-Destination Matrix Generation Dataset的构建方式是通过收集美国3,233个不同地区的通勤OD矩阵，并结合每个地区的区域属性，包括人口统计和兴趣点。这些数据是从多个来源收集的，包括美国人口普查局的美国社区调查和美国OpenStreetMap的POI分布。每个地区都被描述为其边界和该地区内各个地区的边界，这些边界被表示为具有详细地理坐标的多边形，即纬度和经度。人口统计包括不同性别和年龄组的地区人口结构，包括家庭数量和收入水平等。兴趣点分为各种类型，例如餐馆、教育和购物等。

特点

Commuting Origin-Destination Matrix Generation Dataset的特点是规模庞大，地理多样性丰富，这使模型能够捕捉到不同规模和结构的地区的通勤OD矩阵。该数据集涵盖了美国的大都市地区、城镇和农村地区，为训练和评估模型提供了更全面的覆盖范围。与现有数据集相比，该数据集的规模更大，覆盖面积更广，并且是经过编辑和公开可用的，可以在此处找到：https://github.com/tsinghua-fib-lab/CommutingODGen-Dataset。

使用方法

Commuting Origin-Destination Matrix Generation Dataset的使用方法是通过将其作为通勤OD矩阵生成任务的基准数据集来训练和评估模型。该数据集可以用于训练各种类型的模型，包括物理模型、元素预测模型和矩阵生成模型。此外，该数据集还可以用于探索新的研究范式，该范式将整个地区及其通勤OD矩阵视为属性有向加权图，并基于节点属性生成加权边。这种新的范式可以更好地捕捉地区之间通勤OD流的局部依赖关系，以及整个地区内所有通勤流之间的全局关系结构。

背景与挑战

背景概述

通勤起讫点矩阵（Commuting Origin-Destination, OD）是城市规划与交通领域的关键输入数据，它揭示了人口从一个区域居住到另一个区域工作的流动情况。尽管其重要性不言而喻，但由于成本高昂和隐私问题，获取和更新通勤OD矩阵一直是一项挑战。因此，研究人员开始探索如何利用易于获取的信息（如人口统计数据和兴趣点）通过计算模型生成通勤OD矩阵。然而，现有研究主要集中在单个或少数几个大城市，限制了这些模型在其他地区的应用，尤其是在小镇和农村地区，这些地区迫切需要此类数据。为了解决这一问题，我们提出了一个包含美国3,233个不同地区通勤OD矩阵的大规模数据集。对于每个地区，我们提供了通勤OD矩阵，以及该地区的区域属性，包括人口统计信息和每个地区的兴趣点。我们相信，这个全面的数据集将促进更通用的通勤OD矩阵生成模型的发展，这些模型能够捕捉不同地区的各种模式。此外，我们还使用这个数据集对一组通勤OD生成模型进行了基准测试，包括物理模型、逐元素预测模型和矩阵生成模型。令人惊讶的是，我们发现了一种新的范式，它将整个区域及其通勤OD矩阵视为一个具有属性的有向加权图，并基于节点属性生成加权边，这可以实现最优性能。这可能会激发该领域从图学习角度研究的新方向。

当前挑战

尽管通勤OD矩阵对于城市规划与交通领域至关重要，但其获取和更新一直面临挑战。这些挑战包括：1)数据获取成本高；2)隐私问题；3)现有模型通常只针对单个或少数几个大城市，限制了其通用性；4)缺乏对小镇和农村地区的研究；5)现有模型在处理具有不同特征和结构的地区时可能存在局限性。为了解决这些问题，研究人员提出了使用易于获取的信息通过计算模型生成通勤OD矩阵的方法。然而，这种方法仍然面临一些挑战，例如如何构建能够捕捉不同地区各种模式的通用模型，以及如何利用大规模数据集来提高模型的泛化能力。

常用场景

经典使用场景

Commuting Origin-Destination Matrix Generation Dataset (CODM-GD) is a pivotal resource for urban planning and transportation, providing detailed information on commuting patterns across various regions. It is commonly used to train machine learning models for predicting commuting flows, optimizing transportation systems, and guiding urban development decisions.

实际应用

CODM-GD finds practical application in urban planning, transportation optimization, and environmental studies. It helps in understanding commuting patterns, improving transportation infrastructure, and making informed decisions for urban development. It is also valuable for researchers and policymakers in analyzing human mobility and its impact on various aspects of society.

衍生相关工作

CODM-GD has inspired several related works focusing on generating commuting OD matrices. These include physical models, element-wise predictive models, and matrix-wise generative models. Notably, a new paradigm considers the whole area combined with its commuting OD matrix as an attributed directed weighted graph, leading to the development of models like WeDAN, which achieve optimal performance in generating commuting OD matrices.

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集