five

IntTravel

收藏
github2026-02-12 更新2026-02-13 收录
下载链接:
https://github.com/AMAP-ML/IntTravel
下载链接
链接失效反馈
官方服务:
资源简介:
IntTravel是第一个用于集成旅行推荐的大规模公共数据集,包含来自1.63亿用户与730万POI的41亿次交互。数据集包含POI信息、用户资料和用户交互事件,每个POI和用户都有详细的字段描述。

IntTravel is the first large-scale public dataset tailored for integrated travel recommendation. It encompasses 4.1 billion interactions originating from 163 million users and 7.3 million POIs. The dataset contains POI information, user profiles, and user interaction events, with detailed field descriptions for each POI and user.
创建时间:
2026-02-09
原始信息汇总

IntTravel 数据集概述

数据集基本信息

  • 数据集名称:IntTravel
  • 核心定位:首个用于集成旅行推荐的大规模公开数据集及生成式多任务推荐框架。
  • 数据来源:中国一家领先的数字地图、导航和实时交通信息服务提供商。
  • 应用状态:已在服务于数亿用户的Amap(高德地图)上成功部署。

数据规模

  • 用户数量:162,815,861 名用户
  • 兴趣点(POI)数量:7,291,872 个
  • 用户交互事件数量:4,129,827,011 次

数据集构成与字段说明

兴趣点(POI)信息

每个POI包含以下字段:

  • POI ID:每个兴趣点的唯一标识符。
  • Normalized score:反映POI整体受欢迎程度的0-1分数。
  • Geographic ID:POI所在地理区块的标识符。相同的GID表示地理位置相近。
  • Category ID:兴趣点类别的数字标识符。
  • Administrative Region ID:POI所属行政区域的标识符。
  • Coordinates:POI在二维平面上的空间坐标。

用户画像

每名用户包含以下字段:

  • User ID:分配给每个用户的唯一标识符。
  • Profile Feature 1:第一个画像特征。
  • ...
  • Profile Feature 6:第六个画像特征。

用户交互事件

每个交互事件包含以下字段:

  • User ID:执行交互的用户的唯一标识符。
  • Timestamp:用户交互发生的时间,以毫秒记录。
  • Action Type:代表用户行为类型(例如点击)的数字ID。
  • POI ID:交互所涉及的兴趣点标识符。
  • Geographic ID:交互发生时用户所在的地理区块ID。
  • Administrative Region ID:交互发生时用户所在的行政区域ID。
  • Weather:代表交互发生时天气条件的数字ID。
  • Travel Mode:用户选择的出行方式的数字ID。
  • Via POI ID:用户添加的途经点POI的标识符。

数据获取与处理

  • 数据位置data_process/raw_data 目录下提供了一个简易数据集。
  • 完整数据集:更全面的数据集发布于 Hugging Face
  • 数据处理代码data_process 目录下的代码演示了如何基于原始数据构建模型的输入序列以及所有任务的标签。

关联的生成式多任务推荐框架

  • 框架定位:首个用于生成式推荐的多任务解决方案。
  • 核心方法:采用自底向上的多任务方法,在单一生成式模型中处理多个任务。
  • 核心模块
    1. 任务引导信息持久化(TIP):确保任务相关信息在解码器中得到最大程度的传播。
    2. 任务特定选择性门控(TSG):使每个任务能够从解码器输出中筛选有用信息。
    3. 任务感知场景因子分解(TSF):使每个任务能够基于特定场景对其输出进行因子分解。

框架扩展性验证

  • 实验发现:缩放实验结果显示出一个强劲且一致的扩展趋势
  • 性能表现:当模型深度从1层增加到80层时,所有指标的性能都稳步提升(任务准确性向外增加,而损失向外减少)。
  • 关键结论:即使在80层这样的极深配置下,也未出现性能下降的迹象,这证明了所提出架构出色的扩展能力。
搜集汇总
数据集介绍
main_image_url
构建方式
在旅游推荐系统领域,数据集的构建往往依赖于大规模用户行为数据的收集与整合。IntTravel数据集源自中国领先的数字地图、导航及实时交通信息服务提供商,通过系统性地采集用户与兴趣点之间的交互记录而形成。该数据集涵盖了超过1.63亿用户与730万兴趣点之间产生的41亿次交互事件,每条记录均包含用户标识、时间戳、行为类型、兴趣点信息及环境因素等多维度字段。原始数据经过预处理流程,转化为适用于多任务推荐模型的输入序列与标签,确保了数据的一致性与可用性。
特点
IntTravel数据集作为首个面向集成旅游推荐的大规模公开数据集,其显著特点在于覆盖范围的广泛性与数据维度的丰富性。数据集不仅囊括了海量的用户交互行为,还细致标注了兴趣点的地理位置、类别归属及行政区域信息,同时融入了天气状况与出行模式等上下文特征。这种多维度的数据整合为研究用户旅游偏好提供了全面视角,尤其适用于探索多任务推荐场景下的协同与分化机制。数据集的庞大规模与精细结构使其成为推动生成式推荐系统发展的关键资源。
使用方法
针对IntTravel数据集的使用,研究者可依托其提供的原始数据与预处理代码,构建适用于多任务推荐模型的训练与评估流程。数据集支持通过解码器生成框架,将用户历史行为、兴趣点属性及环境因素编码为统一序列,进而实现点击预测、路径规划等多项推荐任务的联合学习。用户可参考公开的代码库,利用任务引导信息持久化、任务特定选择性门控及任务感知场景分解等模块,优化模型在不同场景下的性能。此外,数据集的缩放实验结果表明,其架构在深层模型配置下仍保持稳定的性能提升,为大规模推荐系统的可扩展性研究提供了实证基础。
背景与挑战
背景概述
在智能推荐系统领域,集成多任务学习已成为提升用户体验与系统效能的关键路径。IntTravel数据集由阿里巴巴集团高德地图团队于近期构建并发布,作为首个面向集成旅行推荐的大规模公开数据集,其核心研究问题在于如何通过统一生成式框架协同处理点击率预测、目的地推荐及路径规划等多重任务。该数据集涵盖超过1.63亿用户与730万兴趣点间的41亿次交互,不仅为学术界提供了宝贵的真实世界数据资源,其支撑的生成式推荐框架已成功部署于高德地图,服务数亿用户,显著推动了旅行推荐领域向端到端、多任务协同方向的演进。
当前挑战
IntTravel数据集致力于解决集成旅行推荐中的核心挑战,即如何在单一模型中有效平衡多任务间的协作与专化差异。具体而言,其需应对用户行为稀疏性、时空上下文动态性以及多目标优化冲突等复杂问题。在构建过程中,团队面临大规模异构数据整合、隐私保护与数据脱敏、以及高质量交互序列标注等实际困难,这些挑战要求精细的数据工程设计与先进的计算架构支持,以确保数据集的代表性、可用性与可扩展性。
常用场景
经典使用场景
在旅游推荐系统领域,IntTravel数据集以其大规模、多维度交互记录为特征,为集成多任务推荐模型提供了坚实基础。该数据集最经典的使用场景在于训练端到端的生成式推荐框架,通过整合用户行为序列、地理位置、天气条件及出行模式等多源信息,实现从兴趣点推荐到路线规划的协同优化。研究者可基于此构建统一模型,同时处理点击预测、行程生成和个性化排序等任务,有效模拟真实世界中的复杂旅游决策过程。
实际应用
在实际应用层面,IntTravel数据集已成功部署于高德地图等数字导航平台,服务于数亿用户的日常出行。它支撑了从实时兴趣点推荐到智能路线规划的全链条功能,例如结合用户历史行为、实时天气与交通模式,动态生成个性化旅游方案。该数据集的应用不仅优化了导航效率,还促进了本地商业生态的联动,为城市智慧旅游、交通管理及商业营销提供了数据驱动的决策支持,体现了学术研究向产业落地的有效转化。
衍生相关工作
围绕IntTravel数据集,衍生了一系列经典研究工作,主要集中在多任务生成式推荐架构的探索。例如,基于其提出的任务引导信息持久化、任务特定选择性门控及任务感知场景因子化模块,已成为后续研究的多任务处理基准。这些工作进一步拓展了跨域推荐、序列建模与可扩展性分析,推动了旅游推荐领域向端到端、统一化建模方向发展,为后续大规模多模态推荐系统的设计提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作