Privacy-enhanced GPS locations
收藏arXiv2024-07-16 更新2024-07-18 收录
下载链接:
https://www.cuebiq.com/about/data-for-good/
下载链接
链接失效反馈官方服务:
资源简介:
本数据集由Cuebiq Inc.提供,涵盖2024年2月至3月纽约-纽瓦克-泽西城核心统计区域内的隐私增强GPS位置数据。数据集包含3510541个点,来源于活跃用户的位置ping,通过Cuebiq的SDK收集自Android和iOS设备。数据集创建过程中采用了序列导向和密度依赖的算法进行标注,并模拟了数据缺失情况以评估模型性能。该数据集主要用于城市规划、交通网络设计和流行病学模型等领域的停止位置检测研究。
This dataset is provided by Cuebiq Inc., covering privacy-enhanced GPS location data within the New York-Newark-Jersey City Core Based Statistical Area from February to March 2024. The dataset contains 3,510,541 location points, which originate from location pings of active users collected via Cuebiq's SDK across Android and iOS devices. During the dataset development process, sequence-oriented and density-dependent algorithms were utilized for annotation, and missing data scenarios were simulated to evaluate model performance. This dataset is primarily intended for stop location detection research in domains including urban planning, transportation network design, and epidemiological modeling.
提供机构:
Cuebiq Inc.
创建时间:
2024-07-16
原始信息汇总
数据集详情总结
概述
- 标题: Page not found - Cuebiq
- 网站名称: Cuebiq
内容结构
- 语言: en_US
- 页面标题: Page not found - Cuebiq
- 网站名称: Cuebiq
技术细节
- 字符集: utf-8
- 兼容性: IE=edge
- 视口设置: width=device-width, initial-scale=1
- 机器人指令: noindex, follow
SEO信息
- 插件: Yoast SEO v23.0
- 开放图谱(OG)本地化: en_US
- 开放图谱(OG)标题: Page not found - Cuebiq
- 开放图谱(OG)网站名称: Cuebiq
其他
- DNS预取: www.google.com
- 脚本: 包含多个JavaScript文件和库,如jQuery、Google Tag Manager等。
- 样式表: 包含多个CSS文件,如wp-block-library、contact-form-7等。
- 链接: 包含多个链接,如EditURI、alternate等。
搜集汇总
数据集介绍

构建方式
Privacy-enhanced GPS locations 数据集的构建,首先通过Cuebiq Inc. 提供的数据,采用了隐私增强技术,如上层数据和聚合,以确保用户隐私。数据涵盖了2024年2月至3月期间纽约-纽瓦克-泽西城地区的数据。为了提高数据质量,只包含了在2月份至少活动20天,平均每天至少产生200个位置更新的用户。为了模拟数据缺失的情况,研究人员通过删除10%的已检测停泊点的所有数据点来模拟数据缺失,只保留每个停泊点的两个数据点。数据集还包括了用户ID、地理位置、时间戳等信息。
特点
该数据集的特点在于其隐私保护性和匿名化,同时包含了大量的GPS位置信息。数据集的构建考虑了个体日常行为和局部GPS点的特征,以及个体在不同时间尺度上的行为模式。数据集中的每个数据点都被标记为停泊点或非停泊点,便于后续的分类算法训练。此外,数据集还包含了模拟数据缺失的情况,以便评估模型在数据不完整情况下的性能。
使用方法
使用该数据集时,首先需要了解数据集的构建方式和特点,以便更好地理解数据。然后,可以运用数据集中的特征进行模型训练,如使用LightGBM Classification、Random Forest和3-layers Feed-Forward Neural Network等分类算法。在模型评估时,应该注意数据集的不平衡性,使用AUC、召回率等指标进行评估。此外,还可以通过分析特征的重要性来进一步理解模型的性能。
背景与挑战
背景概述
在人类移动性研究中,停止位置检测对于城市规划、交通网络设计、流行病模型以及社会经济隔离分析等多个领域具有重要影响。然而,由于传统的密度聚类算法在处理噪声或不完整的GPS数据集时往往面临挑战,这一任务仍然充满挑战。本研究调查了分类算法在增强基于密度的方法以识别停止位置方面的应用。我们的方法结合了多个特征,包括个人在不同时间尺度上的日常行为和单个GPS点的局部特征。数据集包括隐私保护且匿名化的GPS点,这些点之前已被一个面向序列的、基于密度的算法标记为停止点。我们通过从选定的停止点中删除点密度来模拟数据缺口,以评估在稀疏数据条件下的性能。该模型将轨迹中的单个GPS点分类为潜在的停止点或非停止点。鉴于数据集的高度不平衡性质,我们在性能评估中优先考虑召回率而非精确率。结果表明,即使存在时空缺口,这种方法也能检测到大多数停止点,并且分类为假阳性的点通常对应于设备的常规位置,通常靠近以前的停止点。尽管这项研究为移动性分析技术做出了贡献,但仍存在重大挑战。缺乏地面真实数据限制了关于算法准确性的明确结论。需要进行进一步的研究,以验证该方法在不同数据集上的有效性,并纳入集体行为输入。
当前挑战
该数据集面临的挑战包括:1)由于GPS记录中固有的噪声或缺失数据,使用仅基于密度的方法可能会带来风险;2)数据集的高度不平衡性质,其中大多数数据点代表运动而非停止,这限制了可以使用的性能指标类型;3)由于时间和计算资源的限制,无法充分利用原始数据,这可能导致模型性能的潜在提升;4)缺乏地面真实数据,限制了关于算法准确性的明确结论。
常用场景
经典使用场景
在人类移动性研究中,停顿位置检测对于城市规划、交通网络设计、流行病建模和社会经济隔离分析等多个领域具有重要影响。隐私增强的GPS位置数据集通过结合个体行为特征和局部GPS点的特性,使用分类算法增强了基于密度的停顿识别方法。该数据集在模拟数据缺失的情况下评估了模型的性能,为在稀疏数据条件下识别停顿提供了可能。此数据集的经典使用场景包括通过分析个体轨迹中的GPS点,来预测这些点是否为潜在停顿,从而为城市规划者、交通工程师和流行病学家提供数据支持。
衍生相关工作
隐私增强的GPS位置数据集衍生了许多相关的经典工作,例如基于密度的聚类算法DBSCAN和OPTICS,以及专门用于停顿提取的聚类方法。此外,该数据集还启发了新的研究思路,例如将个体行为特征和局部GPS点特性结合起来,使用分类算法来增强基于密度的方法。这些相关工作不仅为停顿位置检测提供了新的解决方案,还为移动性分析技术的研究和应用提供了重要的理论和实践基础。
数据集最近研究
最新研究方向
在人类移动性研究中,停位点检测对城市规划、交通网络设计、流行病建模和社会经济隔离分析等领域具有深远的影响。然而,由于经典密度聚类算法往往难以处理噪声或不完整的GPS数据集,这一任务仍然具有挑战性。本研究探讨了将分类算法应用于增强基于密度的停位点识别方法。我们的方法集成了多个特征,包括个人在不同时间尺度上的例行行为和单个GPS点的本地特征。数据集包括先前通过序列导向、密度依赖算法标记为停位点的隐私保护和匿名化GPS点。我们通过从选定停位点中移除点密度来模拟数据缺失,以评估模型在稀疏数据条件下的性能。该模型将轨迹内的单个GPS点分类为潜在停位点或非停位点。鉴于数据集的高度不平衡性质,我们在性能评估中优先考虑召回率而非精度。结果表明,即使存在时空缺失,该方法也能检测到大多数停位点,并且被分类为假阳性的点通常对应于设备的重复位置,通常靠近以前的停位点。虽然这项研究为移动性分析技术做出了贡献,但仍然存在重大挑战。缺乏真实数据限制了关于算法准确性的明确结论。需要进一步研究,以验证该方法在各种数据集上的有效性,并纳入集体行为输入。
相关研究论文
- 1Enhancing stop location detection for incomplete urban mobility datasetsCuebiq Inc. · 2024年
以上内容由遇见数据集搜集并总结生成



