five

LargeST

收藏
arXiv2023-10-28 更新2024-06-21 收录
下载链接:
https://github.com/liuxu77/LargeST
下载链接
链接失效反馈
官方服务:
资源简介:
LargeST数据集是由新加坡国立大学团队开发的大规模交通预测基准数据集,包含加利福尼亚州8600个传感器在五年时间内的详细交通数据和全面元数据。数据集旨在解决现有公共数据集在规模、时间覆盖和元数据丰富性方面的不足,以支持更准确、高效的交通预测模型开发。通过深入的数据分析和基准测试,LargeST为研究者提供了研究长期交通模式和模型可扩展性的平台,同时也揭示了未来研究中的挑战和机遇。

The LargeST dataset is a large-scale traffic forecasting benchmark dataset developed by a team from the National University of Singapore. It contains detailed traffic data and comprehensive metadata from 8,600 sensors across California over a five-year period. This dataset aims to address the shortcomings of existing public datasets in terms of scale, temporal coverage, and metadata richness, to support the development of more accurate and efficient traffic forecasting models. Through in-depth data analysis and benchmark testing, LargeST provides researchers with a platform for studying long-term traffic patterns and model scalability, while also revealing challenges and opportunities for future research.
提供机构:
新加坡国立大学
创建时间:
2023-06-14
搜集汇总
数据集介绍
main_image_url
构建方式
LargeST 数据集的构建方式体现了对大规模交通预测领域现状的深刻理解。该数据集源于加利福尼亚州交通部(CalTrans)的性能测量系统2(PeMS),这是一个收集了来自全州18,954个环路检测器(传感器)的实时交通数据的在线平台。为了确保数据集能够代表整个系统的交通状况,研究团队选择了标签为“主线”的传感器,并排除了那些缺乏坐标信息或与其他传感器距离过远的传感器。最终,他们得到了包含8,600个传感器的数据集,这些传感器覆盖了加利福尼亚州的主要交通网络。
特点
LargeST 数据集的特点在于其规模之大、时间跨度之长以及节点信息的丰富性。该数据集包含了8,600个传感器,每个传感器都有5年的数据,并且还包含了每个节点的综合元数据。此外,LargeST 的子数据集结构使得研究人员能够在不同规模的节点上进行模型评估。数据集的时间跨度允许研究长期模式,如季节性趋势,并为深度学习模型的训练提供了大量的样本。
使用方法
使用 LargeST 数据集时,研究人员可以将其分为不同的子数据集,以适应不同规模的交通网络。此外,数据集的长期时间跨度为研究长期模式提供了机会。节点元数据的丰富性使得研究人员能够将外部知识融入模型中,从而提高预测的准确性和可解释性。为了评估模型的性能和效率,研究人员可以在相同的时间范围内进行训练和测试,并使用数据集中的测试集来评估模型的泛化能力。
背景与挑战
背景概述
随着智慧城市概念的兴起,交通流量预测对于改善城市规划、交通管理和公共安全具有重要意义。深度学习技术的兴起为捕捉交通数据的非线性模式提供了强大的工具,推动了交通预测研究的发展。然而,现有公共数据集的局限性限制了研究的进一步深入。例如,数据集规模有限,无法反映真实世界交通网络的规模;时间覆盖范围短,难以研究长期模式和获取足够的样本;以及缺乏足够的传感器元数据,影响了数据的可靠性和可解释性。为了克服这些局限性,研究人员提出了LargeST基准数据集,该数据集包含加利福尼亚州8600个传感器的5年数据,并提供全面的元数据。通过使用LargeST,研究人员进行了深入的数据分析,对知名基线的性能和效率进行了基准测试,并确定了未来研究的挑战和机遇。
当前挑战
LargeST数据集面临的挑战包括:1) 现有交通数据集规模有限,无法反映真实世界交通网络的规模;2) 时间覆盖范围短,难以研究长期模式和获取足够的样本;3) 缺乏足够的传感器元数据,影响了数据的可靠性和可解释性。为了解决这些挑战,研究人员提出了LargeST基准数据集,该数据集包含加利福尼亚州8600个传感器的5年数据,并提供全面的元数据。然而,LargeST数据集也面临一些挑战,例如数据集的泛化能力有限,数据分析和所有实验都是在加利福尼亚州进行的;以及传感器读数存在不准确和缺失数据的问题。
常用场景
经典使用场景
在智慧城市建设中,道路流量预测扮演着至关重要的角色。LargeST数据集应运而生,旨在为大规模交通预测研究提供一个具有代表性的基准数据集。该数据集涵盖了加州8,600个传感器5年的流量数据,并包含了丰富的节点元数据,为研究者提供了深入研究交通流量时空模式和构建高效、可扩展预测模型的机会。
衍生相关工作
LargeST数据集的提出,推动了交通预测领域的研究进展。基于该数据集,研究者们开发了多种高效、可扩展的交通预测模型,并取得了显著的成果。例如,STGCN、GWNET等模型在LargeST数据集上取得了优异的性能,证明了其在大规模交通预测任务中的有效性。此外,LargeST数据集还为研究交通预测模型的时空依赖关系、节点元数据特征等方面提供了宝贵的数据资源,为未来研究提供了新的方向和思路。
数据集最近研究
最新研究方向
近年来,深度学习技术在交通预测领域取得了显著进展,特别是在捕捉交通数据的非线性模式方面。然而,当前公共数据集的局限性限制了这些进展在现实场景中的应用。为了解决这些问题,LargeST 数据集应运而生。该数据集包含加州 8600 个传感器 5 年的数据,并包含全面的元数据。通过使用 LargeST,研究者们可以进行深入的数据分析,评估现有基线的性能和效率,并识别未来研究的挑战和机遇。LargeST 数据集的出现为大规模交通预测研究提供了新的基准,推动了该领域的发展。
相关研究论文
  • 1
    LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting新加坡国立大学 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作