CityNet

arXiv2025-09-30 收录

下载链接：

https://github.com/citynet-at-git/citynet-phase1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为CityNet，是一个包含来自7个不同城市的数据的多模态城市数据集，每个城市的数据又来自3种不同的数据源，这样的设计使得研究者能够深入进行城市计算领域的广泛研究。此外，CityNet通过揭示城市之间以及不同任务之间的内在联系，支持在都市计算领域中的各种高级研究话题。该数据集可应用于时空预测、迁移学习和强化学习等多种任务。

The dataset named CityNet is a multimodal urban dataset composed of data from 7 distinct cities, where each city's data is collected from 3 different data sources. This design enables researchers to carry out extensive in-depth research in the field of urban computing. Furthermore, by uncovering the intrinsic connections between cities and across diverse tasks, CityNet supports a wide range of advanced research topics in urban computing. This dataset can be applied to various tasks such as spatio-temporal prediction, transfer learning, and reinforcement learning.

搜集汇总

数据集介绍

构建方式

CityNet的构建始于对七座城市（北京、上海、深圳、重庆、西安、成都和香港）多源原始数据的采集，涵盖出租车GPS轨迹、交通速度、兴趣点（POI）、路网及气象数据。研究团队将原始出租车轨迹转化为区域级别的流入流出、载客量和空驶时间等子数据集，并利用地图API获取POI信息，通过气象网站获取逐时天气记录。所有子数据集经过统一的时空对齐处理，采用一致的网格划分（1km×1km）和三十分钟时间间隔，形成标准化的时空张量。此外，基于路网信息构建区域间的连通性邻接矩阵，最终整合为三大数据流：移动性数据、地理数据和气象数据。

特点

CityNet的核心特色在于其全面性和内在关联性。数据集首次在单一框架下融合了移动性、地理和气象三种模态的时空对齐数据，覆盖七座城市。子数据集被划分为服务数据（如出租车流量、载客量）和背景数据（如POI、天气），并通过数据挖掘验证了二者间的显著相关性——例如POI分布与出租车移动模式高度吻合，恶劣天气与交通速度下降存在定量关联。此外，CityNet支持多任务学习，实验表明跨任务权重共享可提升预测精度，而城市间的迁移学习能有效缓解数据稀缺问题。

使用方法

CityNet适用于多种城市计算任务。研究者可直接使用提供的时空张量进行单任务或多任务预测，如利用CNN、LSTM或图神经网络模型预测出租车流量或交通速度。数据集支持跨城市迁移学习，例如将北京等大城市训练的模型微调至数据匮乏的目标城市。对于强化学习任务，可基于历史请求数据构建模拟器，评估出租车调度策略。CityNet还兼容联邦学习设置，允许各参与方持有单一城市或数据源，在隐私保护下协作建模。所有数据已标准化格式，便于直接加载至PyTorch等框架。

背景与挑战

背景概述

随着城市化进程的加速，城市计算领域对多模态、多源数据的需求日益迫切。然而，现有数据集如PeMS、METR和NYC Cabs等，往往局限于单一数据源（如交通速度或出租车轨迹），难以全面反映城市系统中多实体间的复杂关联。为填补这一空白，由香港科技大学郑正飞、耿旭和杨海等人于2021年构建的CityNet数据集应运而生。该数据集整合了来自北京、上海、深圳等七座城市的出租车轨迹、交通速度、兴趣点、气象等多模态数据，并将其划分为移动性、地理和气象三大数据流。CityNet的核心研究问题在于如何通过时空对齐的多源数据，揭示城市服务数据与上下文数据之间的内在关联，从而推动时空预测、迁移学习及强化学习等前沿研究。作为首个面向城市计算的综合性多模态数据集，CityNet为构建智慧城市系统提供了关键基准，显著提升了城市管理决策的科学性与精准度。

当前挑战

CityNet数据集面临的核心挑战源于城市数据的碎片化与异构性。在领域问题层面，现有研究多依赖单一数据源，难以捕捉城市系统中多实体间的动态交互，例如出租车调度任务仅考虑轨迹数据而忽略天气、交通速度等上下文信息，导致模型泛化能力不足。在构建过程中，数据整合面临两大障碍：其一，不同城市的数据采集标准、时空粒度及属性格式差异显著，例如出租车GPS点与POI数据的采样频率和坐标系统不一致，需通过统一的预处理流程实现时空对齐；其二，多模态数据间的关联性挖掘极具挑战性，如气象与交通速度的回归分析表明，雨雾天气虽显著降低车速，但不同城市间的相关性强度存在差异，需借助聚类与迁移学习等方法揭示其内在规律。此外，数据稀疏性问题（如北京出租车空闲率稀疏度达0.788）进一步加剧了模型训练的难度，亟需设计鲁棒的算法以应对数据缺失与噪声干扰。

常用场景

经典使用场景

在城市计算领域，多模态数据的融合与时空对齐一直是研究中的核心挑战。CityNet数据集应运而生，其最经典的使用场景聚焦于时空预测任务，涵盖出租车流量、乘客需求与供应、交通速度等关键指标的预测。研究者可利用CityNet中丰富的移动性、地理和气象数据，构建并评估各类深度学习模型，如卷积神经网络、长短期记忆网络以及图神经网络，以精准捕捉城市动态的时空依赖关系。该数据集通过提供来自七个城市的统一时空配置，使得跨城市、跨任务的预测性能对比成为可能，为智能交通系统的算法研发奠定了坚实的实验基础。

实际应用

在实际应用中，CityNet为城市智能管理系统的开发提供了关键支撑。例如，在出租车调度场景中，该数据集可训练基于强化学习的调度策略，通过结合实时交通速度、天气状况和兴趣点分布，优化空闲车辆与乘客需求的匹配，显著提升订单完成率与系统总收益。此外，CityNet还可用于构建城市应急响应模型，如在恶劣天气下预测交通拥堵热点，辅助交通管理部门提前部署疏导资源。其多城市特性使得模型能够从数据丰富的城市（如北京）迁移至数据匮乏的新兴城市，有效缓解了数字化水平不均带来的应用瓶颈。

衍生相关工作

CityNet的发布催生了大量衍生研究工作。在迁移学习领域，基于CityNet的多城市数据，研究者提出了如MetaST等元学习框架，通过跨城市知识共享显著提升了数据稀缺城市的预测精度。在时空图学习方面，CityNet启发了多图卷积网络（如ST-MGCN）的研发，通过融合道路连接图、兴趣点相似图等结构信息，实现了更精细的区域需求预测。此外，该数据集为联邦学习在智慧城市中的隐私保护应用提供了理想测试床，推动了多方数据协作下的分布式模型训练方法发展。这些工作共同拓展了城市计算的研究边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集