five

transport_adults_2011-palms

收藏
Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/josefheidler/transport_adults_2011-palms
下载链接
链接失效反馈
官方服务:
资源简介:
PALMS验证数据集是一个用于GPS交通模式检测的数据集,旨在通过GPS轨迹(位置、速度、海拔)预测交通模式。数据集由加州大学圣地亚哥分校人口健康与无线研究中心(UCSD CWPHS)的两名研究助理在2011年2月至5月期间完成,使用Qstarz BT-1000 GPS记录仪(约5秒采样间隔,无IMU数据)收集。数据集包含67,529个GPS样本,其中94.7%已标注,总计95.1小时的标注数据。数据字段包括参与者别名、时间戳、GPS位置、海拔高度、速度、标签(移动/停止)、交通模式(步行、自行车、汽车、公交)、活动状态(站立、坐下、慢速移动)、冷启动标志和位置类型(室内、室外、车库、商场)。数据集适用于交通模式检测算法的开发或验证,采用BSD-2-Clause许可证,以GeoParquet格式提供。
创建时间:
2026-04-21
原始信息汇总

数据集概述:PALMS 验证数据集——GPS 交通方式检测

该数据集包含来自两名实验者的 GPS 轨迹数据,用于交通方式检测研究。数据基于 2011 年在圣地亚哥进行的脚本化出行实验,经过统一处理后以 GeoParquet 格式提供。

1. 数据集基本信息

  • 数据集名称:PALMS Validation Dataset — GPS transportation-mode detection
  • 许可证:BSD-2-Clause
  • 语言:英语
  • 任务类型:表格分类(tabular-classification),以及其他(other)
  • 数据规模:100,000 至 1,000,000 条记录
  • 数据量:67,529 个 GPS 样本,其中 94.7% 带有标签,总计 95.1 小时标注数据
  • 数据集配置:默认配置(default),训练集(train)数据文件路径为 harmonized/*.parquet

2. 协议与数据收集

  • 参与者:2 名来自加州大学圣地亚哥分校无线与人口健康研究中心(UCSD CWPHS)的受训研究助理,分别以 brisk-meerkatkeen-raccoon 作为 ID。
  • 传感器:Qstarz BT-1000 独立 GPS 记录器,采样频率约为 5 秒(中位数 5 秒),仅包含 GPS 数据,无加速度计或 IMU 数据。
  • 协议:在 2011 年 2 月至 5 月期间,在圣地亚哥沿预设路线进行脚本化出行。
    • 交通出行:沿圣地亚哥走廊进行的配对模式出行,每段距离 800-1500 米,涵盖步行、骑行、汽车和公共汽车。
    • 建筑物出行:重复进出建筑物、商场和车库的阈值交叉,以测试 GPS 信号丢失行为。
  • 真实标签来源:标签由研究助理在每次出行过程中记录手写出行日志,然后转录为每秒的日记文件(每段会话一个 XLSX 文件)。上游来源未报告视频注释或评估者间信度。GPS 与日志通过相同的系统时钟隐式同步。无参与者被排除。

3. 数据结构与模式

所有时间戳均为时区感知的 America/Los_Angeles

列名 数据类型 说明
subject string 参与者别名(brisk-meerkatkeen-raccoon
timestamp datetime64[ns, America/Los_Angeles] 记录站点本地时间,时区为 America/Los_Angeles
geometry WKB Point (EPSG:4326) GPS 位置
altitude_m float64 (nullable) GPS 海拔(米)
speed_kph float64 (nullable) 设备报告的速度(千米/小时),来自 GPX <speed> 元素 × 3.6
label string (nullable) 主要分类:move(移动)或 stop(停止)
transport string (nullable) 出行模式:walk(步行)、bicycle(骑行)、car(汽车)、bus(公共汽车);若无效则为 null
activity string (nullable) 身体状态:stand(站立)、sit(坐)、shuffle(缓慢移动);处于交通方式时为 null
cold_start bool (nullable) True 表示冷启动 GPS 行程;False 为常规;null 表示无活跃行程
location string (nullable) indoor(室内)、outdoor(室外)、garage(车库)、mall(商场)

4. 标签词汇表

label 是主要的移动/停止分类。transportactivity 是子维度,每行最多只有一个非空值。

label transport activity 含义 标注时长(分钟)
move bicycle 骑行出行段 582.7
move bus 公共汽车出行段 440.3
move car 车内出行段 1267.0
move walk 步行出行段(包括进出建筑物) 1672.4
move 模式转换段 56.2
stop shuffle 暂停期间缓慢移动 224.1
stop sit 暂停期间坐着 437.6
stop stand 暂停期间站着 1024.3

总标注时长:5,704.4 分钟 / 95.1 小时,涵盖 2 名参与者。

5. 数据覆盖与分布

  • 67,529 行数据中,3,547 行(5.3%)的 label 列缺失(null),这些 GPS 样本落在连接操作的 10 秒公差范围之外,未继承任何真实标签。
  • 其余所有行都有 label = movelabel = stop

6. 统一化说明

  • 无参与者被排除。
  • speed_kph 是设备报告的 GPS 速度,来自 GPX <speed> 元素(单位为米/秒,根据 GPX 1.1 规范,乘以 3.6 转换为千米/小时);通过 tools/speed_unit_check.py 在 3 个检查文件中确认(设备/哈弗辛比率在 0.94-1.03 之间)。
  • 模式版本 v1.0.1:原有的 label / variant / event 列被替换为 label(move/stop)、transport(出行模式)和 activity(停止期间的身体状态)。新 label 列携带原本位于 event 列中的移动/停止分类。

7. 数据用途

该数据集适用于基于 GPS 的交通方式检测任务,即从 GPS 轨迹(位置、速度、海拔)预测 transport 列。由于仅有两名参与者,该数据集主要适用于算法开发,或与已知参考实现(PALMS)进行验证。原始来源未定义标准的评估协议;由于参与者数量少,按参与者水平进行留出法是自然的分割方式。

8. 数据加载示例

可加载两个参与者为一个 GeoDataFrame,或加载单一参与者。

加载两个参与者: python import geopandas as gpd import pandas as pd from huggingface_hub import HfFileSystem

fs = HfFileSystem() files = fs.glob("datasets/josefheidler/transport_adults_2011-palms/harmonized/*.parquet") gdfs = [gpd.read_parquet(f"hf://{f}") for f in sorted(files)] gdf = gpd.GeoDataFrame(pd.concat(gdfs, ignore_index=True), crs="EPSG:4326")

加载单一参与者(以 brisk-meerkat 为例): python import geopandas as gpd

gdf = gpd.read_parquet( "hf://datasets/josefheidler/transport_adults_2011-palms/harmonized/brisk-meerkat.parquet" )

9. 引用信息

md2k-PALMS. Personal Activity and Location Measurement System (PALMS) Validation Dataset. https://github.com/MD2Korg/md2k-PALMS, 2011.

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自加州大学圣地亚哥分校无线与人口健康研究中心于2011年2月至5月期间实施的一项脚本化交通出行研究。两名经过训练的研究助理携带Qstarz BT-1000独立GPS记录仪(采样周期约5秒,无惯性测量单元),按照预设路线在圣地亚哥市区完成约35次出行任务,并逐秒记录活动模式。原始数据经MD2K组织发布的PALMS验证数据集整理,最终以个体为单位,整合为GeoParquet格式的地理空间数据表,每一行对应一个GPS采样点。此过程亦将GPS日志与人工撰写的时间戳日记进行隐式同步,以构建带标注的真值数据。
特点
此数据集囊括了2名参与者的67,529个GPS采样点,其中94.7%的样本带有明确标签,总标注时长达95.1小时。数据架构丰富,除基本的位置、时间、海拔和速度信息外,还提供三级标注:初步移动/静止分类(label)、交通方式(transport,包括步行、自行车、汽车、公交)以及静止状态下的身体活动(activity)。数据集还记录GPS冷启动状态与室内外环境,全面覆盖步行、骑行、驾车及公交等多种交通场景,并包含建筑物穿越等特殊情境。该数据以BS-2-Clause许可发布,并保持了与原始PALMS系统的兼容性。
使用方法
该数据集主要用于GPS轨迹数据驱动的交通方式检测算法开发与验证。使用者可通过Hugging Face Hub调用`geopandas`库直接加载数据,支持全体参与者的合并加载或单一个体的独立加载。鉴于参与者仅有两名,建议采用个体层面留出法作为训练/测试的拆分策略。研究人员可基于位置、速度和海拔等特征,预测数据中的交通方式标签或移动/静止状态。由于数据集规模较小且标注精良,特别适宜作为算法验证或与PALMS基准系统比对的参考数据集。
背景与挑战
背景概述
交通模式识别是智慧城市与健康行为研究的重要交叉领域,通过分析GPS轨迹数据可推断个体的出行方式(步行、骑行、驾车等),进而服务于健康风险评估与城市规划。2011年,加州大学圣地亚哥分校无线与人口健康研究中心的研究人员构建了PALMS验证数据集,该数据集由两名训练有素的研究助理在圣地亚哥执行约35次脚本化出行任务,使用Qstarz BT-1000 GPS记录仪以约5秒采样间隔采集数据,并逐秒记录真实出行模式。数据集涵盖步行、骑行、轿车、公交四种交通模式及建筑内活动,共收集67,529个GPS样本,标记时间达95.1小时,为纯GPS信号下的多模式分类提供了基准资源。该数据集在MD2K组织存储库基础上进行了统一的GeoParquet格式转换,并公开于HuggingFace平台,对基于位置服务的机器学习算法开发具有推动作用,尤其填补了精细时间粒度出行模式标注数据的稀缺。
当前挑战
该数据集面临的核心挑战包括领域问题和构建过程的双重限制。领域方面,GPS信号在室内、地下通道或高楼密集区域易受衰减或多路径效应影响,导致定位精度下降,且只有两名参与者的数据限制了模型的泛化能力,难以捕捉不同人群的出行行为差异。构建过程中,真实标注依赖于人工编写的出行日志,缺乏视频验证或评估者间信度检查,存在主观偏差风险;同时GPS时钟与日志时间戳的隐式同步可能因设备漂移引入毫秒级对齐误差。此外,冷启动状态下的GPS锁定延迟、不同采样点之间的时空插值误差,以及粗粒度交通模式(如公交与轿车在低速场景下的相似轨迹)的区分难题,均对分类算法的鲁棒性提出了严峻考验。
常用场景
经典使用场景
在交通模式识别与时空行为分析领域,PALMS验证数据集为基于GPS轨迹的出行方式分类研究提供了精标定的基准资源。该数据集采集自2011年加州大学圣迭戈分校两名研究人员携带Qstarz BT-1000 GPS记录仪完成的约35次脚本化出行实验,记录了步行、骑行、汽车和巴士四种交通模式,并辅以停留状态下的身体活动标签。其经典用法在于利用位置、速度、海拔等时序特征,训练和验证能够区分动/停状态及具体交通模式的机器学习模型,尤其适用于算法开发和与PALMS参考实现的比对验证。由于仅有两位受试者,该数据集自然支持按受试者划分的留一法验证策略,成为小样本条件下交通模式探测研究的典型测试平台。
解决学术问题
该数据集精准回应了基于稀疏GPS采样率的交通模式识别中的关键学术挑战——如何在缺乏惯性测量单元辅助的情况下,仅依靠位置和速度序列实现多模式分类。其丰富的标注体系覆盖了移动类别(move/stop)、交通子类(walk/bicycle/car/bus)以及停留时的身体姿态(stand/sit/shuffle),为解构出行行为的多层次语义提供了罕见的细粒度标注数据。同时,数据集涵盖了建筑内外、车库等不同定位环境下的GPS信号衰减场景,有效支持对室内外过渡段和冷启动定位条件下模型鲁棒性的研究。其意义在于为后续研究奠定了可复现的验证基准,推动了基于轨迹数据的人类移动性建模从粗粒度分类向精细化识别演进。
衍生相关工作
该数据集作为MD2K项目的一部分,其发布衍生了多项具有影响力的研究工作。原始PALMS平台被广泛用于从加速度计和GPS数据中提取体力活动与出行行为的特征工程,推动了个人健康监测系统的算法开发。后续研究者在利用该数据集进行验证时,提出了基于隐马尔可夫模型的多模态交通模式解耦方法,以及融合时空上下文特征的轻量级分类框架。数据集的结构化标注方案,尤其是移动/停止二元分类与交通模式、身体活动的分层设计,为后续大规模GPS轨迹数据集(如GeoLife、T-Drive)的标注策略提供了参考范式。这些工作共同深化了学界对GPS轨迹中行为模式可识别性的理解,并促进了开放数据驱动的城市计算研究生态的繁荣。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作