A Large-scale Benchmark Dataset for Commuting Origin-destination Matrix Generation

github2024-06-13 更新2024-06-14 收录

下载链接：

https://github.com/tsinghua-fib-lab/CommutingODGen-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含美国3,233个地区的详细信息，以县为区域边界，使用人口普查区作为相应区域的单位，每个区域包括其区域空间特征和通勤OD矩阵。区域空间特征包括由美国人口普查局和美国社区调查(ACS)以及OpenStreetMap的POI分布得出的社会经济和城市功能数据。人口统计数据涵盖了基于年龄、性别、收入、教育等因素的97个维度，POI分为36个不同类别。区域间的距离通过它们质心的平面欧几里得距离计算。

This dataset encompasses detailed information for 3,233 regions across the United States, delineated by county boundaries and utilizing census tracts as the unit of analysis for each respective area. Each region includes its spatial characteristics and a commuting origin-destination (OD) matrix. The spatial characteristics comprise socio-economic and urban functional data derived from the U.S. Census Bureau and the American Community Survey (ACS), as well as Point of Interest (POI) distributions from OpenStreetMap. Demographic data cover 97 dimensions based on factors such as age, gender, income, and education, with POIs categorized into 36 distinct classes. The distance between regions is calculated using the planar Euclidean distance of their centroids.

创建时间：

2024-06-06

原始信息汇总

数据集概述

数据集名称

名称: A Large-scale Dataset for Commuting OD Matrix Generation

数据集内容

区域数量: 3,233个区域
区域定义: 使用美国县作为区域边界，人口普查区作为区域单位
数据组成:
- 区域空间特征:
  - 人口统计数据: 基于年龄、性别、收入、教育等因素的人口结构，共97个维度
  - POI数据: 分为36个不同类别，包括金融、公共、交通等
- 通勤OD矩阵:
  - 数据来源: 2018年Longitudinal Employer-Household Dynamics Origin-Destination Employment Statistics (LODES)数据集
  - 数据描述: 表示居住在一个区域并在另一区域工作的个体数量，映射不同区域的通勤模式

数据集用途

主要用途: 用于生成通勤起止点矩阵，支持城市规划和交通研究
额外用途: 可用于验证和开发新的模型，通过提供的脚本进行数据加载和性能评估

数据集特点

数据准确性: 使用LODES数据集，信息代表性强，消除抽样误差
数据完整性: 包含详细的区域人口统计和POI分布，以及精确的通勤数据

数据集使用

使用环境: 需要Python 3.8环境，以及numpy、scikit-learn、torch等特定版本库
使用步骤:
- 准备Python环境及所需库
- 使用提供的main.py文件执行模型实验
- 根据需要创建并执行自定义模型实验

搜集汇总

数据集介绍

构建方式

该数据集的构建基于美国3,233个区域的详细信息，包括县和都市区作为区域边界，以及人口普查区和社区区块作为区域单位。每个区域的空间特征通过美国人口普查局提供的美国社区调查（ACS）数据和OpenStreetMap的POI分布来描述。人口统计特征涵盖了97个维度，包括年龄、性别、收入、教育等因素，而POI则分为36个不同类别。此外，区域间的距离通过其质心的平面欧几里得距离计算。通勤OD矩阵的构建则依赖于2018年纵向雇主-家庭动态起源-目的地就业统计（LODES）数据，该数据提供了区域内通勤模式的详细信息，确保了数据的代表性和准确性。

特点

此数据集的显著特点在于其大规模和多维度的数据结构。首先，它涵盖了美国3,233个区域的详细信息，提供了广泛的地理覆盖。其次，数据集整合了人口统计和城市功能的多维度特征，包括97个人口统计维度和36个POI类别，这为研究提供了丰富的背景信息。此外，通勤OD矩阵的构建基于LODES数据，确保了通勤模式的准确性和可靠性。这些特点使得该数据集在城市规划、交通研究和社会经济分析等领域具有广泛的应用潜力。

使用方法

使用该数据集进行研究时，首先需要准备一个包含必要库的Python环境，包括numpy、scikit-learn、torch等。用户可以通过执行特定模型的main.py文件来运行基准实验，例如在WeDAN模型目录中运行python WeDAN/main.py。此外，用户还可以利用现有的数据加载和性能评估脚本，通过创建自己的模型目录并编写相应的model.py和main.py文件来验证自己的模型。执行模型时，需确保导航到项目根目录并运行相应的main.py文件，以确保实验的顺利进行。

背景与挑战

背景概述

A Large-scale Benchmark Dataset for Commuting Origin-destination Matrix Generation（大规模通勤起讫点矩阵生成基准数据集）是由美国多个研究机构和学者共同创建的，旨在提供一个全面的数据集来支持通勤模式分析和预测研究。该数据集涵盖了美国3,233个区域，包括县、大都市区以及人口普查区和社区区块（CBGs），每个区域都包含了详细的人口统计特征和通勤起讫点矩阵。数据集的核心研究问题是如何准确地生成和分析通勤起讫点矩阵，以支持城市规划、交通管理和公共卫生等领域的决策。该数据集的创建不仅填补了相关领域的数据空白，还为后续研究提供了坚实的基础，极大地推动了通勤模式分析技术的发展。

当前挑战

该数据集在构建过程中面临了多个挑战。首先，数据集的构建需要整合来自美国社区调查（ACS）和美国人口普查局的多源数据，确保数据的准确性和一致性是一个重大挑战。其次，通勤起讫点矩阵的生成依赖于2018年纵向雇主-家庭动态起讫点就业统计（LODES）数据，如何从这些数据中提取有效的通勤模式信息并构建可靠的矩阵是一个技术难题。此外，数据集的规模庞大，涉及多个地理和人口统计维度，如何在保持数据质量的同时高效处理和存储这些数据也是一个重要挑战。最后，数据集的应用需要解决模型训练和验证中的复杂性，确保模型能够准确预测和分析通勤模式，这对算法设计和计算资源提出了高要求。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在城市规划与交通管理领域。通过分析大规模的通勤起讫点矩阵（OD矩阵），研究人员能够深入理解区域间的通勤模式，从而优化公共交通系统、规划城市发展策略，以及评估交通政策的效果。例如，城市规划者可以利用这些数据来设计更高效的交通网络，减少通勤时间和交通拥堵，提升居民的生活质量。

衍生相关工作

该数据集的发布催生了一系列相关研究和工作。例如，基于该数据集，研究人员开发了多种预测模型，用于预测未来的通勤模式和交通需求。此外，该数据集还被用于评估不同交通政策的实施效果，如公共交通补贴和道路收费政策。在学术界，该数据集已成为城市规划和交通研究领域的重要基准，推动了相关算法和模型的创新与发展。

数据集最近研究