transport_adults_2011-palms
收藏数据集概述:PALMS 验证数据集——GPS 交通方式检测
该数据集包含来自两名实验者的 GPS 轨迹数据,用于交通方式检测研究。数据基于 2011 年在圣地亚哥进行的脚本化出行实验,经过统一处理后以 GeoParquet 格式提供。
1. 数据集基本信息
- 数据集名称:PALMS Validation Dataset — GPS transportation-mode detection
- 许可证:BSD-2-Clause
- 语言:英语
- 任务类型:表格分类(tabular-classification),以及其他(other)
- 数据规模:100,000 至 1,000,000 条记录
- 数据量:67,529 个 GPS 样本,其中 94.7% 带有标签,总计 95.1 小时标注数据
- 数据集配置:默认配置(default),训练集(train)数据文件路径为
harmonized/*.parquet
2. 协议与数据收集
- 参与者:2 名来自加州大学圣地亚哥分校无线与人口健康研究中心(UCSD CWPHS)的受训研究助理,分别以
brisk-meerkat和keen-raccoon作为 ID。 - 传感器:Qstarz BT-1000 独立 GPS 记录器,采样频率约为 5 秒(中位数 5 秒),仅包含 GPS 数据,无加速度计或 IMU 数据。
- 协议:在 2011 年 2 月至 5 月期间,在圣地亚哥沿预设路线进行脚本化出行。
- 交通出行:沿圣地亚哥走廊进行的配对模式出行,每段距离 800-1500 米,涵盖步行、骑行、汽车和公共汽车。
- 建筑物出行:重复进出建筑物、商场和车库的阈值交叉,以测试 GPS 信号丢失行为。
- 真实标签来源:标签由研究助理在每次出行过程中记录手写出行日志,然后转录为每秒的日记文件(每段会话一个 XLSX 文件)。上游来源未报告视频注释或评估者间信度。GPS 与日志通过相同的系统时钟隐式同步。无参与者被排除。
3. 数据结构与模式
所有时间戳均为时区感知的 America/Los_Angeles。
| 列名 | 数据类型 | 说明 |
|---|---|---|
| subject | string | 参与者别名(brisk-meerkat 或 keen-raccoon) |
| timestamp | datetime64[ns, America/Los_Angeles] | 记录站点本地时间,时区为 America/Los_Angeles |
| geometry | WKB Point (EPSG:4326) | GPS 位置 |
| altitude_m | float64 (nullable) | GPS 海拔(米) |
| speed_kph | float64 (nullable) | 设备报告的速度(千米/小时),来自 GPX <speed> 元素 × 3.6 |
| label | string (nullable) | 主要分类:move(移动)或 stop(停止) |
| transport | string (nullable) | 出行模式:walk(步行)、bicycle(骑行)、car(汽车)、bus(公共汽车);若无效则为 null |
| activity | string (nullable) | 身体状态:stand(站立)、sit(坐)、shuffle(缓慢移动);处于交通方式时为 null |
| cold_start | bool (nullable) | True 表示冷启动 GPS 行程;False 为常规;null 表示无活跃行程 |
| location | string (nullable) | indoor(室内)、outdoor(室外)、garage(车库)、mall(商场) |
4. 标签词汇表
label 是主要的移动/停止分类。transport 和 activity 是子维度,每行最多只有一个非空值。
| label | transport | activity | 含义 | 标注时长(分钟) |
|---|---|---|---|---|
| move | bicycle | — | 骑行出行段 | 582.7 |
| move | bus | — | 公共汽车出行段 | 440.3 |
| move | car | — | 车内出行段 | 1267.0 |
| move | walk | — | 步行出行段(包括进出建筑物) | 1672.4 |
| move | — | — | 模式转换段 | 56.2 |
| stop | — | shuffle | 暂停期间缓慢移动 | 224.1 |
| stop | — | sit | 暂停期间坐着 | 437.6 |
| stop | — | stand | 暂停期间站着 | 1024.3 |
总标注时长:5,704.4 分钟 / 95.1 小时,涵盖 2 名参与者。
5. 数据覆盖与分布
- 67,529 行数据中,3,547 行(5.3%)的
label列缺失(null),这些 GPS 样本落在连接操作的 10 秒公差范围之外,未继承任何真实标签。 - 其余所有行都有
label = move或label = stop。
6. 统一化说明
- 无参与者被排除。
speed_kph是设备报告的 GPS 速度,来自 GPX<speed>元素(单位为米/秒,根据 GPX 1.1 规范,乘以 3.6 转换为千米/小时);通过tools/speed_unit_check.py在 3 个检查文件中确认(设备/哈弗辛比率在 0.94-1.03 之间)。- 模式版本 v1.0.1:原有的
label/variant/event列被替换为label(move/stop)、transport(出行模式)和activity(停止期间的身体状态)。新label列携带原本位于event列中的移动/停止分类。
7. 数据用途
该数据集适用于基于 GPS 的交通方式检测任务,即从 GPS 轨迹(位置、速度、海拔)预测 transport 列。由于仅有两名参与者,该数据集主要适用于算法开发,或与已知参考实现(PALMS)进行验证。原始来源未定义标准的评估协议;由于参与者数量少,按参与者水平进行留出法是自然的分割方式。
8. 数据加载示例
可加载两个参与者为一个 GeoDataFrame,或加载单一参与者。
加载两个参与者: python import geopandas as gpd import pandas as pd from huggingface_hub import HfFileSystem
fs = HfFileSystem() files = fs.glob("datasets/josefheidler/transport_adults_2011-palms/harmonized/*.parquet") gdfs = [gpd.read_parquet(f"hf://{f}") for f in sorted(files)] gdf = gpd.GeoDataFrame(pd.concat(gdfs, ignore_index=True), crs="EPSG:4326")
加载单一参与者(以 brisk-meerkat 为例):
python
import geopandas as gpd
gdf = gpd.read_parquet( "hf://datasets/josefheidler/transport_adults_2011-palms/harmonized/brisk-meerkat.parquet" )
9. 引用信息
md2k-PALMS. Personal Activity and Location Measurement System (PALMS) Validation Dataset. https://github.com/MD2Korg/md2k-PALMS, 2011.




