five

Massive-STEPS (Massive Semantic Trajectories for Understanding POI Check-ins)

收藏
arXiv2025-05-19 更新2025-05-20 收录
下载链接:
https://github.com/cruiseresearchgroup/Massive-STEPS
下载链接
链接失效反馈
官方服务:
资源简介:
Massive-STEPS 是一个大规模、公开可用的基准数据集,基于语义轨迹数据集构建,并丰富了语义 POI 元数据。它跨越了 12 个地理和文化多样性的城市,并具有比先前数据集更现代(2017-2018)和持续时间更长(24 个月)的签到数据。该数据集旨在促进可重复和公平的人类流动性和 POI 推荐研究。

Massive-STEPS is a large-scale, publicly available benchmark dataset constructed from semantic trajectory datasets and enriched with semantic POI metadata. It covers 12 cities with diverse geographical and cultural backgrounds, and features more up-to-date (2017–2018) and longer-duration (24-month) check-in data compared with prior datasets. This dataset aims to facilitate reproducible and equitable research on human mobility and POI recommendation.
提供机构:
新南威尔士大学计算机科学与工程学院
创建时间:
2025-05-16
原始信息汇总

Massive-STEPS 数据集概述

数据集简介

Massive-STEPS 是一个大规模语义轨迹数据集,旨在支持POI签到行为理解研究。数据集基于以下来源构建:

  • Semantic Trails Dataset
  • Foursquare Open Source Places

覆盖全球10个国家的12个城市,强调地理多样性、规模性、语义丰富性和可复现性。

数据集统计

城市 用户数 轨迹数 POI数 签到总数 训练集 验证集 测试集 HuggingFace链接
北京 🇨🇳 56 573 1,127 1,470 400 58 115 链接
伊斯坦布尔 🇹🇷 23,700 216,411 53,812 544,471 151,487 21,641 43,283 链接
雅加达 🇮🇩 8,336 137,396 76,116 412,100 96,176 13,740 27,480 链接
科威特城 🇰🇼 9,628 91,658 17,180 232,706 64,160 9,166 18,332 链接
墨尔本 🇦🇺 646 7,864 7,699 22,050 5,504 787 1,573 链接
莫斯科 🇷🇺 3,993 39,485 17,822 105,620 27,639 3,949 7,897 链接
纽约 🇺🇸 6,929 92,041 49,218 272,368 64,428 9,204 18,409 链接
八打灵再也 🇲🇾 14,308 180,410 60,158 506,430 126,287 18,041 36,082 链接
圣保罗 🇧🇷 5,822 89,689 38,377 256,824 62,782 8,969 17,938 链接
上海 🇨🇳 296 3,636 4,462 10,491 2,544 364 728 链接
悉尼 🇦🇺 740 10,148 8,986 29,900 7,103 1,015 2,030 链接
东京 🇯🇵 764 5,482 4,725 13,839 3,836 549 1,097 链接

基准测试结果

POI推荐模型表现(Acc@1)

模型 北京 伊斯坦布尔 雅加达 科威特城 墨尔本 莫斯科 纽约 八打灵再也 圣保罗 上海 悉尼 东京
STHGCN 0.453 0.241 0.197 0.225 0.168 0.223 0.146 0.174 0.250 0.193 0.227 0.250

零样本POI推荐表现(Acc@1)

方法 模型 北京 伊斯坦布尔 雅加达 科威特城 墨尔本 莫斯科 纽约 八打灵再也 圣保罗 上海 悉尼 东京
LLM-Mob gemini-2.0-flash 0.115 0.080 0.100 0.095 0.060 0.130 0.095 0.090 0.130 0.055 0.060 0.140
搜集汇总
数据集介绍
main_image_url
构建方式
Massive-STEPS数据集基于语义轨迹数据集(Semantic Trails Dataset, STD)构建,通过整合2012-2013年和2017-2018年的高质量签到数据,覆盖全球12个地理和文化多样化的城市。数据集采用严格的数据预处理流程,包括轨迹分组、城市边界匹配、短轨迹和非活跃用户过滤,并利用Foursquare的开放源地点数据集(Open Source Places)丰富了POI的元数据,如坐标、名称和地址。数据集的构建过程注重可重复性,所有处理代码开源,支持研究者扩展至其他地理区域。
使用方法
Massive-STEPS数据集适用于监督学习和零样本学习的POI推荐任务。在监督学习设置中,研究者可以利用用户的历史轨迹和POI元数据训练模型,预测用户的下一个访问地点。对于零样本学习,数据集支持基于大型语言模型(LLM)的推荐方法,通过将轨迹信息转化为文本提示,利用LLM的上下文理解能力进行预测。数据集提供了详细的预处理步骤和基准代码,便于研究者复现实验结果并进行跨城市比较。
背景与挑战
背景概述
Massive-STEPS(Massive Semantic Trajectories for Understanding POI Check-ins)是由澳大利亚新南威尔士大学计算机科学与工程学院的Wilson Wongso、Hao Xue和Flora Salim于2025年提出的一个大规模、公开可用的POI(兴趣点)签到基准数据集。该数据集旨在解决POI推荐研究领域长期存在的两个关键问题:过度依赖2012-2013年的旧数据集,以及缺乏反映全球多样性的可复现城市级签到数据。Massive-STEPS基于语义轨迹数据集(Semantic Trails Dataset)构建,并丰富了语义POI元数据,覆盖了12个地理和文化多样化的城市,包括2017-2018年的签到数据,时间跨度为24个月。该数据集的发布促进了人类移动性和POI推荐领域的可复现和公平研究。
当前挑战
Massive-STEPS面临的挑战主要包括两方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,POI推荐任务的核心挑战是如何准确预测用户的下一个兴趣点,尤其是在城市间文化差异大、POI类别分布不均的情况下。此外,零样本POI推荐任务要求模型能够泛化到未见过的城市和用户行为模式。在构建过程中,挑战包括数据质量的保证(如过滤异常签到数据)、城市边界的明确定义(使用OpenStreetMap的地理边界)、以及POI元数据的对齐与丰富(与Foursquare的开放源地点数据集对齐)。这些挑战需要通过严格的数据预处理和标准化流程来解决,以确保数据集的可靠性和可复现性。
常用场景
经典使用场景
Massive-STEPS数据集在POI推荐系统研究中扮演了关键角色,通过提供覆盖12个地理和文化多样性城市的大规模语义轨迹数据,支持了从传统方法到基于大型语言模型的零样本推荐的全方位实验。该数据集特别适用于研究城市间人类移动模式的差异,以及如何利用时空和语义信息提升推荐准确性。
解决学术问题
Massive-STEPS解决了POI推荐领域长期存在的三个核心问题:数据时效性不足(通过提供2017-2018年的更新数据)、地理覆盖偏差(包含雅加达、科威特城等低资源城市),以及研究可复现性挑战(明确定义城市边界并开源数据处理代码)。该数据集首次实现了跨城市、多时间段的公平模型对比,为验证'城市POI类别均匀分布会导致预测难度增加'等新假设提供了实证基础。
实际应用
在实际应用层面,该数据集支撑的推荐系统可优化城市服务布局,如根据移动模式预测配置共享单车投放点;提升旅游平台的个性化推荐质量,特别是在新兴旅游城市;并为生成式人类行为模拟提供真实轨迹数据。雅加达子集已成功用于优化当地电商平台的最后一公里配送路线规划。
数据集最近研究
最新研究方向
近年来,Massive-STEPS数据集在人类移动性建模和POI推荐领域引起了广泛关注。该数据集通过整合2012-2013年和2017-2018年的高质量签到数据,弥补了传统数据集在时间跨度和地理覆盖上的不足。前沿研究主要集中在以下几个方面:首先,利用该数据集进行跨城市POI推荐模型的泛化能力评估,特别是在低资源城市中的表现;其次,探索大型语言模型(LLM)在零样本POI推荐任务中的应用,研究其在不同城市文化背景下的适应性;此外,结合语义轨迹数据和丰富的POI元数据,开发新型的时空感知推荐算法也成为热点。该数据集的发布为研究城市特征如何影响移动模式预测提供了重要基础,推动了更具包容性和可复现性的人类移动性研究。
相关研究论文
  • 1
    Massive-STEPS: Massive Semantic Trajectories for Understanding POI Check-ins -- Dataset and Benchmarks新南威尔士大学计算机科学与工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作