public-transport-dataset

github2023-04-28 更新2024-05-31 收录

下载链接：

https://github.com/aalto-trafficsense/public-transport-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由2016年8月26日9点至16点（东欧时间+夏令时）期间，8名TrafficSense项目研究人员的定位和活动识别样本、手动记录的行程及相关交通基础设施数据组成。目标是为测试和基准算法自动识别公共交通行程从移动电话样本数据创建数据集。数据集包括设备数据、过滤后的设备数据、设备型号、手动日志、实时位置样本、静态时间表和列车历史信息。

This dataset comprises location and activity recognition samples, manually recorded trips, and related traffic infrastructure data from eight TrafficSense project researchers between 9:00 and 16:00 on August 26, 2016 (Eastern European Time + Daylight Saving Time). The objective is to create a dataset for testing and benchmarking algorithms that automatically identify public transport trips from mobile phone sample data. The dataset includes device data, filtered device data, device models, manual logs, real-time location samples, static schedules, and train history information.

创建时间：

2016-08-30

原始信息汇总

数据集概述

数据集名称

名称: public-transport-dataset

数据集描述

目的: 用于测试和基准算法，自动识别公共交通旅行从移动电话样本数据。
参与者: 8名研究人员
时间: 2016年8月26日，9:00至16:00 EET+DST
特点: 强调地铁旅行，同时记录一些私人汽车旅行以区分。
限制: 不适用于研究公共交通用户的常规旅行习惯。

数据集组件

设备数据
- 来源: 移动电话样本
- 内容: 时间戳、设备ID、经纬度、精度、活动识别等
- 记录数: 6030条
过滤后的设备数据
- 内容: 时间戳、设备ID、经纬度、活动识别
- 记录数: 5975条
设备模型
- 内容: 设备ID、手机型号
- 记录数: 8条
手动日志
- 内容: 设备ID、入口描述、入口时间、线路类型、线路名称、车辆出发时间、车辆出发站点、车辆到达时间、车辆到达站点、出口描述、出口时间、评论
- 记录数: 103条
实时位置样本
- 内容: 时间戳、经纬度、线路类型、线路名称、车辆参考
- 记录数: 229451条
静态时刻表
- 内容: 实验期间的公共交通时刻表
列车历史信息
- 内容: 实验日期的列车运行信息

数据格式

CSV版本: 位于csv文件夹
PostgreSQL支持: 位于psql文件夹，包含导入数据和生成报告的脚本

数据集使用挑战

目标: 通过其他可用数据形式，尽可能正确识别手动日志中的旅行。
难点: 实时数据中不包含所有公交和火车，某些旅行可能无法在实时数据中找到匹配。

搜集汇总

数据集介绍

构建方式

该数据集由8名研究人员在2016年8月26日的特定时间段内，通过移动设备采集的位置和活动识别样本构建而成。数据收集过程中，参与者尽可能多地执行公共交通出行，尤其是地铁出行，以测试自动识别算法的性能。数据集还包括手动记录的行程日志、公共交通基础设施数据以及实时的公共交通车辆位置信息。数据通过TrafficSense安卓客户端采集，结合了Google Play Services的融合位置提供器和活动识别功能。

特点

该数据集的特点在于其多样化的数据来源和丰富的活动识别信息。数据集不仅包含移动设备采集的原始位置和活动数据，还提供了经过过滤的设备数据、设备型号信息、手动记录的行程日志以及实时的公共交通车辆位置数据。特别值得注意的是，数据集中的地铁出行数据为自动识别算法提供了极具挑战性的测试场景。此外，数据集还包含了部分私人汽车出行记录，以区分非公共交通出行。

使用方法

该数据集的使用方法主要包括数据导入和分析。用户可以通过CSV文件或PostgreSQL数据库导入数据，并使用提供的脚本生成报告和比较表格。数据集的主要用途是测试和验证自动识别公共交通出行的算法。用户可以通过对比手动记录的行程日志和算法识别的结果，评估算法的准确性和鲁棒性。此外，数据集中的实时公共交通车辆位置信息可以用于进一步优化算法的识别效果。

背景与挑战

背景概述

public-transport-dataset数据集由Aalto大学的TrafficSense项目团队于2016年8月26日创建，旨在通过收集8名研究人员的移动设备数据和手动记录行程信息，构建一个用于测试和评估公共交通出行自动识别算法的基准数据集。该数据集涵盖了地铁、公交、电车等多种交通方式，特别关注地铁出行的识别，因其在自动识别中具有较高的挑战性。数据集的核心研究问题是通过移动设备数据自动识别用户的公共交通出行模式，为智能交通系统的开发提供数据支持。该数据集在公共交通出行模式识别领域具有重要的研究价值，推动了相关算法的发展。

当前挑战

该数据集面临的挑战主要包括两个方面：首先，在领域问题方面，自动识别公共交通出行模式仍然存在诸多难题，尤其是地铁出行的识别，由于地铁行驶平稳，设备可能进入休眠状态，导致数据缺失。其次，在数据构建过程中，研究人员面临设备定位精度不足、活动识别间隔不稳定等问题。尽管使用了Android融合定位服务，定位误差仍然存在，且设备在静止状态下可能进入低功耗模式，导致数据采集不连续。此外，部分公共交通线路的实时数据缺失，进一步增加了数据匹配和识别的难度。这些挑战要求算法具备更高的鲁棒性和适应性，以应对复杂多变的实际场景。

常用场景

经典使用场景

在智能交通系统研究中，public-transport-dataset数据集被广泛用于测试和验证公共交通出行自动识别算法。通过结合移动设备采集的位置数据和活动识别数据，研究人员能够模拟和评估不同算法在实际交通环境中的表现，尤其是在地铁等复杂交通模式下的识别准确性。

解决学术问题

该数据集解决了公共交通出行模式自动识别中的关键问题，特别是在多模式交通环境下的识别挑战。通过提供详细的移动设备数据、手动日志和公共交通实时数据，研究人员能够开发出更精确的算法，以区分不同的交通模式，如地铁、公交和私家车，从而提升出行模式识别的准确性和可靠性。

衍生相关工作

基于public-transport-dataset，许多经典研究工作得以展开。例如，研究人员开发了基于机器学习的出行模式识别算法，利用该数据集进行训练和验证。此外，该数据集还催生了一系列关于公共交通系统优化的研究，如基于实时数据的交通流量预测和调度优化模型，进一步推动了智能交通系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集