Massive-STEPS (Massive Semantic Trajectories for Understanding POI Check-ins)
收藏arXiv2025-05-19 更新2025-05-20 收录
下载链接:
https://github.com/cruiseresearchgroup/Massive-STEPS
下载链接
链接失效反馈官方服务:
资源简介:
Massive-STEPS 是一个大规模、公开可用的基准数据集,基于语义轨迹数据集构建,并丰富了语义 POI 元数据。它跨越了 12 个地理和文化多样性的城市,并具有比先前数据集更现代(2017-2018)和持续时间更长(24 个月)的签到数据。该数据集旨在促进可重复和公平的人类流动性和 POI 推荐研究。
Massive-STEPS is a large-scale, publicly available benchmark dataset constructed from semantic trajectory datasets and enriched with semantic POI metadata. It covers 12 cities with diverse geographical and cultural backgrounds, and features more up-to-date (2017–2018) and longer-duration (24-month) check-in data compared with prior datasets. This dataset aims to facilitate reproducible and equitable research on human mobility and POI recommendation.
提供机构:
新南威尔士大学计算机科学与工程学院
创建时间:
2025-05-16
原始信息汇总
Massive-STEPS 数据集概述
数据集简介
Massive-STEPS 是一个大规模语义轨迹数据集,旨在支持POI签到行为理解研究。数据集基于以下来源构建:
- Semantic Trails Dataset
- Foursquare Open Source Places
覆盖全球10个国家的12个城市,强调地理多样性、规模性、语义丰富性和可复现性。
数据集统计
| 城市 | 用户数 | 轨迹数 | POI数 | 签到总数 | 训练集 | 验证集 | 测试集 | HuggingFace链接 |
|---|---|---|---|---|---|---|---|---|
| 北京 🇨🇳 | 56 | 573 | 1,127 | 1,470 | 400 | 58 | 115 | 链接 |
| 伊斯坦布尔 🇹🇷 | 23,700 | 216,411 | 53,812 | 544,471 | 151,487 | 21,641 | 43,283 | 链接 |
| 雅加达 🇮🇩 | 8,336 | 137,396 | 76,116 | 412,100 | 96,176 | 13,740 | 27,480 | 链接 |
| 科威特城 🇰🇼 | 9,628 | 91,658 | 17,180 | 232,706 | 64,160 | 9,166 | 18,332 | 链接 |
| 墨尔本 🇦🇺 | 646 | 7,864 | 7,699 | 22,050 | 5,504 | 787 | 1,573 | 链接 |
| 莫斯科 🇷🇺 | 3,993 | 39,485 | 17,822 | 105,620 | 27,639 | 3,949 | 7,897 | 链接 |
| 纽约 🇺🇸 | 6,929 | 92,041 | 49,218 | 272,368 | 64,428 | 9,204 | 18,409 | 链接 |
| 八打灵再也 🇲🇾 | 14,308 | 180,410 | 60,158 | 506,430 | 126,287 | 18,041 | 36,082 | 链接 |
| 圣保罗 🇧🇷 | 5,822 | 89,689 | 38,377 | 256,824 | 62,782 | 8,969 | 17,938 | 链接 |
| 上海 🇨🇳 | 296 | 3,636 | 4,462 | 10,491 | 2,544 | 364 | 728 | 链接 |
| 悉尼 🇦🇺 | 740 | 10,148 | 8,986 | 29,900 | 7,103 | 1,015 | 2,030 | 链接 |
| 东京 🇯🇵 | 764 | 5,482 | 4,725 | 13,839 | 3,836 | 549 | 1,097 | 链接 |
基准测试结果
POI推荐模型表现(Acc@1)
| 模型 | 北京 | 伊斯坦布尔 | 雅加达 | 科威特城 | 墨尔本 | 莫斯科 | 纽约 | 八打灵再也 | 圣保罗 | 上海 | 悉尼 | 东京 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| STHGCN | 0.453 | 0.241 | 0.197 | 0.225 | 0.168 | 0.223 | 0.146 | 0.174 | 0.250 | 0.193 | 0.227 | 0.250 |
零样本POI推荐表现(Acc@1)
| 方法 | 模型 | 北京 | 伊斯坦布尔 | 雅加达 | 科威特城 | 墨尔本 | 莫斯科 | 纽约 | 八打灵再也 | 圣保罗 | 上海 | 悉尼 | 东京 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| LLM-Mob | gemini-2.0-flash | 0.115 | 0.080 | 0.100 | 0.095 | 0.060 | 0.130 | 0.095 | 0.090 | 0.130 | 0.055 | 0.060 | 0.140 |
搜集汇总
数据集介绍

构建方式
Massive-STEPS数据集基于语义轨迹数据集(Semantic Trails Dataset, STD)构建,通过整合2012-2013年和2017-2018年的高质量签到数据,覆盖全球12个地理和文化多样化的城市。数据集采用严格的数据预处理流程,包括轨迹分组、城市边界匹配、短轨迹和非活跃用户过滤,并利用Foursquare的开放源地点数据集(Open Source Places)丰富了POI的元数据,如坐标、名称和地址。数据集的构建过程注重可重复性,所有处理代码开源,支持研究者扩展至其他地理区域。
使用方法
Massive-STEPS数据集适用于监督学习和零样本学习的POI推荐任务。在监督学习设置中,研究者可以利用用户的历史轨迹和POI元数据训练模型,预测用户的下一个访问地点。对于零样本学习,数据集支持基于大型语言模型(LLM)的推荐方法,通过将轨迹信息转化为文本提示,利用LLM的上下文理解能力进行预测。数据集提供了详细的预处理步骤和基准代码,便于研究者复现实验结果并进行跨城市比较。
背景与挑战
背景概述
Massive-STEPS(Massive Semantic Trajectories for Understanding POI Check-ins)是由澳大利亚新南威尔士大学计算机科学与工程学院的Wilson Wongso、Hao Xue和Flora Salim于2025年提出的一个大规模、公开可用的POI(兴趣点)签到基准数据集。该数据集旨在解决POI推荐研究领域长期存在的两个关键问题:过度依赖2012-2013年的旧数据集,以及缺乏反映全球多样性的可复现城市级签到数据。Massive-STEPS基于语义轨迹数据集(Semantic Trails Dataset)构建,并丰富了语义POI元数据,覆盖了12个地理和文化多样化的城市,包括2017-2018年的签到数据,时间跨度为24个月。该数据集的发布促进了人类移动性和POI推荐领域的可复现和公平研究。
当前挑战
Massive-STEPS面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,POI推荐任务的核心挑战是如何准确预测用户的下一个兴趣点,尤其是在城市间文化差异大、POI类别分布不均的情况下。此外,零样本POI推荐任务要求模型能够泛化到未见过的城市和用户行为模式。在构建过程中,挑战包括数据质量的保证(如过滤异常签到数据)、城市边界的明确定义(使用OpenStreetMap的地理边界)、以及POI元数据的对齐与丰富(与Foursquare的开放源地点数据集对齐)。这些挑战需要通过严格的数据预处理和标准化流程来解决,以确保数据集的可靠性和可复现性。
常用场景
经典使用场景
Massive-STEPS数据集在POI推荐系统研究中扮演了关键角色,通过提供覆盖12个地理和文化多样性城市的大规模语义轨迹数据,支持了从传统方法到基于大型语言模型的零样本推荐的全方位实验。该数据集特别适用于研究城市间人类移动模式的差异,以及如何利用时空和语义信息提升推荐准确性。
解决学术问题
Massive-STEPS解决了POI推荐领域长期存在的三个核心问题:数据时效性不足(通过提供2017-2018年的更新数据)、地理覆盖偏差(包含雅加达、科威特城等低资源城市),以及研究可复现性挑战(明确定义城市边界并开源数据处理代码)。该数据集首次实现了跨城市、多时间段的公平模型对比,为验证'城市POI类别均匀分布会导致预测难度增加'等新假设提供了实证基础。
实际应用
在实际应用层面,该数据集支撑的推荐系统可优化城市服务布局,如根据移动模式预测配置共享单车投放点;提升旅游平台的个性化推荐质量,特别是在新兴旅游城市;并为生成式人类行为模拟提供真实轨迹数据。雅加达子集已成功用于优化当地电商平台的最后一公里配送路线规划。
数据集最近研究
最新研究方向
近年来,Massive-STEPS数据集在人类移动性建模和POI推荐领域引起了广泛关注。该数据集通过整合2012-2013年和2017-2018年的高质量签到数据,弥补了传统数据集在时间跨度和地理覆盖上的不足。前沿研究主要集中在以下几个方面:首先,利用该数据集进行跨城市POI推荐模型的泛化能力评估,特别是在低资源城市中的表现;其次,探索大型语言模型(LLM)在零样本POI推荐任务中的应用,研究其在不同城市文化背景下的适应性;此外,结合语义轨迹数据和丰富的POI元数据,开发新型的时空感知推荐算法也成为热点。该数据集的发布为研究城市特征如何影响移动模式预测提供了重要基础,推动了更具包容性和可复现性的人类移动性研究。
相关研究论文
- 1Massive-STEPS: Massive Semantic Trajectories for Understanding POI Check-ins -- Dataset and Benchmarks新南威尔士大学计算机科学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成



