Massive-STEPS (Massive Semantic Trajectories for Understanding POI Check-ins)

Name: Massive-STEPS (Massive Semantic Trajectories for Understanding POI Check-ins)
Creator: 新南威尔士大学计算机科学与工程学院
Published: 2025-05-19 09:17:11
License: 暂无描述

arXiv2025-05-19 更新2025-05-20 收录

下载链接：

https://github.com/cruiseresearchgroup/Massive-STEPS

下载链接

链接失效反馈

官方服务：

资源简介：

Massive-STEPS 是一个大规模、公开可用的基准数据集，基于语义轨迹数据集构建，并丰富了语义 POI 元数据。它跨越了 12 个地理和文化多样性的城市，并具有比先前数据集更现代（2017-2018）和持续时间更长（24 个月）的签到数据。该数据集旨在促进可重复和公平的人类流动性和 POI 推荐研究。

Massive-STEPS is a large-scale, publicly available benchmark dataset constructed from semantic trajectory datasets and enriched with semantic POI metadata. It covers 12 cities with diverse geographical and cultural backgrounds, and features more up-to-date (2017–2018) and longer-duration (24-month) check-in data compared with prior datasets. This dataset aims to facilitate reproducible and equitable research on human mobility and POI recommendation.

提供机构：

新南威尔士大学计算机科学与工程学院

创建时间：

2025-05-16

原始信息汇总

Massive-STEPS 数据集概述

数据集简介

Massive-STEPS 是一个大规模语义轨迹数据集，旨在支持POI签到行为理解研究。数据集基于以下来源构建：

Semantic Trails Dataset
Foursquare Open Source Places

覆盖全球10个国家的12个城市，强调地理多样性、规模性、语义丰富性和可复现性。

数据集统计

城市	用户数	轨迹数	POI数	签到总数	训练集	验证集	测试集	HuggingFace链接
北京 🇨🇳	56	573	1,127	1,470	400	58	115	链接
伊斯坦布尔 🇹🇷	23,700	216,411	53,812	544,471	151,487	21,641	43,283	链接
雅加达 🇮🇩	8,336	137,396	76,116	412,100	96,176	13,740	27,480	链接
科威特城 🇰🇼	9,628	91,658	17,180	232,706	64,160	9,166	18,332	链接
墨尔本 🇦🇺	646	7,864	7,699	22,050	5,504	787	1,573	链接
莫斯科 🇷🇺	3,993	39,485	17,822	105,620	27,639	3,949	7,897	链接
纽约 🇺🇸	6,929	92,041	49,218	272,368	64,428	9,204	18,409	链接
八打灵再也 🇲🇾	14,308	180,410	60,158	506,430	126,287	18,041	36,082	链接
圣保罗 🇧🇷	5,822	89,689	38,377	256,824	62,782	8,969	17,938	链接
上海 🇨🇳	296	3,636	4,462	10,491	2,544	364	728	链接
悉尼 🇦🇺	740	10,148	8,986	29,900	7,103	1,015	2,030	链接
东京 🇯🇵	764	5,482	4,725	13,839	3,836	549	1,097	链接

基准测试结果

POI推荐模型表现(Acc@1)

模型	北京	伊斯坦布尔	雅加达	科威特城	墨尔本	莫斯科	纽约	八打灵再也	圣保罗	上海	悉尼	东京
STHGCN	0.453	0.241	0.197	0.225	0.168	0.223	0.146	0.174	0.250	0.193	0.227	0.250

零样本POI推荐表现(Acc@1)

方法	模型	北京	伊斯坦布尔	雅加达	科威特城	墨尔本	莫斯科	纽约	八打灵再也	圣保罗	上海	悉尼	东京
LLM-Mob	gemini-2.0-flash	0.115	0.080	0.100	0.095	0.060	0.130	0.095	0.090	0.130	0.055	0.060	0.140

搜集汇总

数据集介绍

构建方式

Massive-STEPS数据集基于语义轨迹数据集（Semantic Trails Dataset, STD）构建，通过整合2012-2013年和2017-2018年的高质量签到数据，覆盖全球12个地理和文化多样化的城市。数据集采用严格的数据预处理流程，包括轨迹分组、城市边界匹配、短轨迹和非活跃用户过滤，并利用Foursquare的开放源地点数据集（Open Source Places）丰富了POI的元数据，如坐标、名称和地址。数据集的构建过程注重可重复性，所有处理代码开源，支持研究者扩展至其他地理区域。

使用方法

Massive-STEPS数据集适用于监督学习和零样本学习的POI推荐任务。在监督学习设置中，研究者可以利用用户的历史轨迹和POI元数据训练模型，预测用户的下一个访问地点。对于零样本学习，数据集支持基于大型语言模型（LLM）的推荐方法，通过将轨迹信息转化为文本提示，利用LLM的上下文理解能力进行预测。数据集提供了详细的预处理步骤和基准代码，便于研究者复现实验结果并进行跨城市比较。

背景与挑战

背景概述

Massive-STEPS（Massive Semantic Trajectories for Understanding POI Check-ins）是由澳大利亚新南威尔士大学计算机科学与工程学院的Wilson Wongso、Hao Xue和Flora Salim于2025年提出的一个大规模、公开可用的POI（兴趣点）签到基准数据集。该数据集旨在解决POI推荐研究领域长期存在的两个关键问题：过度依赖2012-2013年的旧数据集，以及缺乏反映全球多样性的可复现城市级签到数据。Massive-STEPS基于语义轨迹数据集（Semantic Trails Dataset）构建，并丰富了语义POI元数据，覆盖了12个地理和文化多样化的城市，包括2017-2018年的签到数据，时间跨度为24个月。该数据集的发布促进了人类移动性和POI推荐领域的可复现和公平研究。

当前挑战

Massive-STEPS面临的挑战主要包括两方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，POI推荐任务的核心挑战是如何准确预测用户的下一个兴趣点，尤其是在城市间文化差异大、POI类别分布不均的情况下。此外，零样本POI推荐任务要求模型能够泛化到未见过的城市和用户行为模式。在构建过程中，挑战包括数据质量的保证（如过滤异常签到数据）、城市边界的明确定义（使用OpenStreetMap的地理边界）、以及POI元数据的对齐与丰富（与Foursquare的开放源地点数据集对齐）。这些挑战需要通过严格的数据预处理和标准化流程来解决，以确保数据集的可靠性和可复现性。

常用场景

经典使用场景

Massive-STEPS数据集在POI推荐系统研究中扮演了关键角色，通过提供覆盖12个地理和文化多样性城市的大规模语义轨迹数据，支持了从传统方法到基于大型语言模型的零样本推荐的全方位实验。该数据集特别适用于研究城市间人类移动模式的差异，以及如何利用时空和语义信息提升推荐准确性。

解决学术问题

Massive-STEPS解决了POI推荐领域长期存在的三个核心问题：数据时效性不足（通过提供2017-2018年的更新数据）、地理覆盖偏差（包含雅加达、科威特城等低资源城市），以及研究可复现性挑战（明确定义城市边界并开源数据处理代码）。该数据集首次实现了跨城市、多时间段的公平模型对比，为验证'城市POI类别均匀分布会导致预测难度增加'等新假设提供了实证基础。

实际应用

在实际应用层面，该数据集支撑的推荐系统可优化城市服务布局，如根据移动模式预测配置共享单车投放点；提升旅游平台的个性化推荐质量，特别是在新兴旅游城市；并为生成式人类行为模拟提供真实轨迹数据。雅加达子集已成功用于优化当地电商平台的最后一公里配送路线规划。

数据集最近研究