NUMOSIM
收藏arXiv2024-09-05 更新2024-09-07 收录
下载链接:
https://doi.org/10.1145/3589132.3625590
下载链接
链接失效反馈官方服务:
资源简介:
NUMOSIM是由诺维特研究解决方案和加州大学洛杉矶分校联合创建的合成移动数据集,旨在为异常检测技术提供一个受控、伦理和多样化的环境。该数据集通过先进的深度学习模型模拟了洛杉矶地区的真实移动场景,包含200,000个合成代理的移动轨迹,并注入了多种异常行为以挑战检测算法。数据集的创建过程结合了真实旅行调查数据和深度学习技术,确保了数据的真实性和复杂性。NUMOSIM主要应用于地理空间移动分析领域,旨在提升异常检测和移动建模技术的性能。
提供机构:
诺维特研究解决方案
创建时间:
2024-09-05
搜集汇总
数据集介绍

构建方式
NUMOSIM数据集的构建采用了深度活动模型(DeepAM),该模型基于真实旅行调查数据(以及可选的稀疏移动数据)进行训练。DeepAM使用Transformer架构,通过编码器-解码器结构生成活动链,以捕捉家庭内部成员及其活动之间的复杂相互依赖关系。模型输入包括个人的社会经济数据及其家庭成员的数据,这些数据被拼接并嵌入形成特征向量。编码器通过自注意力层处理输入,有效地捕捉数据中的复杂关系。随后,解码器以自回归方式生成活动预测,预测活动链中每个活动的类型、开始时间和结束时间。DeepAM在2017年国家家庭旅行调查(NHTS)的180,000个样本上进行训练,并将活动分类为16个类别。模型损失函数包括多个部分:活动类型预测的交叉熵损失、时间预测的软标签损失以及时间顺序和顺序时间的特殊损失,以确保逻辑上一致的序列。DeepAM生成洛杉矶地区20万代理人的活动类型链,并使用来自Planetsense和USA Structures的数据为模拟创建兴趣点列表。每个位置根据手动定义的映射分配一组有效的活动类型。活动类型链生成后,采用POI分配程序将每个活动分配给有效的POI。此程序考虑了洛杉矶的平均通勤时间、每天的总行驶距离、转动半径、每天访问的位置数量以及齐普夫定律的人类运动。一旦代理人被分配了POI,他们就会使用Open Street Map(OSM)提供的洛杉矶道路网络导航以执行他们的活动。代理人的到达时间是他们使用OSM提供的速度限制通过道路网络导航的结果。最终的输出是每个代理人访问POI的时间表,跨越两个连续的4周周期:训练和测试。
特点
NUMOSIM数据集的特点包括:1)真实性:数据集模拟了广泛的现实移动场景,包括典型和非典型行为,通过在真实移动数据上训练的高级深度学习模型生成。2)可控性:数据集提供了受控、道德和多样化的环境,用于基准测试异常检测技术。3)多样性:数据集包含大量代理人的活动类型链,涵盖了从家庭到工作、学校、儿童保育、医疗保健、购物、餐饮等多种活动。4)异常性:数据集包括非重复异常和重复异常,用于模拟代理人的行为模式偏离预期。5)开放性:数据集提供开放访问,包括全面的文档、评估指标和基准结果。
使用方法
NUMOSIM数据集的使用方法包括:1)基准测试:数据集可用于评估和比较异常检测算法的性能。2)模型训练:数据集可用于训练和验证移动模型和异常检测技术。3)数据分析:数据集可用于分析人类移动模式,并识别其中的异常。4)模型评估:数据集提供了一系列评估指标,可用于评估模型在检测异常方面的性能。5)模型比较:数据集可用于比较不同模型的性能,以确定最佳模型。
背景与挑战
背景概述
在人类移动数据分析领域,对异常移动模式进行检测对于理解重大事件或中断至关重要。然而,收集和利用真实世界中的移动数据面临着诸多挑战,包括隐私法规、高昂成本、后勤困难以及数据固有的偏差。此外,在大型数据集中准确地标注异常是一个重大障碍,因为识别出表示异常的细微且复杂的模式通常需要广泛的领域专业知识以及细致入微的努力。这些限制阻碍了可靠且标注良好的数据的获取,这对于严格评估和基准测试异常检测方法至关重要。为了解决这些限制,合成数据生成已成为一种有希望的替代方案,用于创建支持异常检测算法开发和测试的数据集。合成数据集提供了模拟各种场景的灵活性,包括在真实世界数据中可能代表性不足的罕见或极端事件。然而,生成能够准确捕捉真实世界移动模式复杂性的合成移动数据是一项挑战。一个关键难点在于模拟塑造人类移动行为的复杂人口统计、地理和时序因素的相互作用。传统的统计方法通常用于合成数据生成,但往往无法捕捉这些复杂性,导致数据集缺乏必要的多样性和现实性,无法有效地模拟真实世界场景。NUMOSIM数据集的创建旨在通过提供受控、道德和多样化的环境,以基准测试异常检测技术,从而解决这些限制。
当前挑战
NUMOSIM数据集面临的主要挑战包括:1) 解决领域问题的挑战,即提供一种能够准确模拟真实世界移动模式复杂性的合成数据集,以便有效地进行异常检测算法的评估和基准测试;2) 构建过程中的挑战,包括如何精确地模拟人口统计、地理和时序因素的相互作用,以及如何将异常策略性地注入数据集中,以测试和评估检测算法的有效性。
常用场景
经典使用场景
NUMOSIM数据集在地理空间异常检测领域具有广泛的应用价值。该数据集模拟了真实世界中的移动场景,包括典型行为和异常行为,为评估和比较异常检测算法提供了一个受控的环境。通过注入异常,NUMOSIM数据集挑战并测试检测算法识别异常行为的能力,从而促进地理空间移动分析的发展。
衍生相关工作
NUMOSIM数据集的发布促进了地理空间异常检测领域的研究。它衍生了多个相关的研究工作,包括使用NUMOSIM数据集进行异常检测算法的开发和评估,以及探索新的异常检测技术和模型。NUMOSIM数据集的开放获取和全面文档支持了学术界的合作和知识共享,推动了地理空间异常检测领域的发展。
数据集最近研究
最新研究方向
在地理空间异常检测领域,NUMOSIM数据集的引入为研究人员提供了一个前所未有的合成移动数据集,以应对真实世界移动数据收集的挑战。NUMOSIM通过模拟各种现实场景,包括典型和异常行为,为异常检测技术提供了一个可控、道德和多样化的环境。这一数据集的创建旨在准确复制现实世界移动模式的复杂性,同时战略性地注入异常,以评估检测算法的效率。NUMOSIM的发布为地理空间移动分析提供了现实基准,旨在改善异常检测和移动建模技术。
相关研究论文
- 1NUMOSIM: A Synthetic Mobility Dataset with Anomaly Detection Benchmarks诺维特研究解决方案 · 2024年
以上内容由遇见数据集搜集并总结生成



