IntTravel_dataset

Hugging Face2026-02-19 更新2026-02-20 收录

下载链接：

https://huggingface.co/datasets/GD-ML/IntTravel_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

IntTravel 是首个面向综合旅行推荐的大规模公开数据集，包含来自1.63亿用户与730万POI（兴趣点）的41亿次交互记录。该数据集全面覆盖用户旅程的多个维度，包括“何时出发”、“如何出行”、“前往何处”以及“沿途需求”。数据集结构包含三部分：1) POI信息（7,291,872个POI），包含唯一标识符、标准化评分、地理区块ID、类别ID、行政区划ID及二维坐标；2) 用户档案（162,815,861个用户），包含用户ID和六个描述性特征；3) 用户交互（4,129,827,011条记录），记录用户行为类型、时间戳、POI交互、地理位置、天气状况、出行模式及途径POI等信息。该数据集适用于多任务旅行推荐系统的研究与开发，特别支持端到端的生成式推荐框架构建。数据覆盖中国多个主要城市，规模达十亿级别。

IntTravel is the first large-scale public dataset dedicated to comprehensive travel recommendation, containing 4.1 billion interaction records from 163 million users and 7.3 million Points of Interest (POIs). This dataset comprehensively covers multiple dimensions of user travel journeys, including "when to depart", "how to travel", "where to go" and "on-trip demands". The dataset is structured into three parts: 1) POI Information (7,291,872 POIs), including unique identifier, normalized rating, geographic block ID, category ID, administrative division ID and two-dimensional coordinates; 2) User Profiles (162,815,861 users), including user ID and six descriptive features; 3) User Interaction Records (4,129,827,011 records), which record user behavior type, timestamp, POI interaction details, geographic location, weather conditions, travel mode and en route POIs. This dataset is applicable to the research and development of multi-task travel recommendation systems, and particularly supports the construction of end-to-end generative recommendation frameworks. The data covers multiple major cities across China, with a billion-level scale.

创建时间：

2026-02-11

搜集汇总

数据集介绍

构建方式

在旅游推荐系统研究领域，大规模真实世界数据的稀缺性长期制约着算法模型的深度探索。IntTravel数据集通过整合来自中国多个主要城市的匿名化用户移动轨迹，构建了一个覆盖旅行全链条的交互记录集合。其核心数据源于海量用户在实际出行过程中产生的实时行为日志，包括出发时间、出行方式、目的地选择及沿途需求等多维度信息。这些原始日志经过严格的清洗、去标识化与结构化处理，最终形成了包含用户画像、兴趣点属性及交互事件的三类核心数据表，并以CSV格式分片存储以支持高效访问。

使用方法

研究人员可利用该数据集开展多任务旅行推荐系统的建模与评估工作。典型的使用流程始于数据加载，用户需分别读取用户信息、兴趣点信息及分片存储的交互记录文件。在模型构建阶段，可依据用户ID、时间戳及兴趣点ID等字段，重构用户的历史行为序列，并结合兴趣点的类别、地理区块及用户画像特征，训练预测下一次访问地点、推荐出行方式或识别沿途需求的生成式模型。数据集中提供的地理区块标识便于实施基于地理邻近性的负采样策略，以提升推荐结果的多样性。完成模型训练后，可通过在测试集上评估点击率、行程覆盖率等指标来衡量系统性能。

背景与挑战

背景概述

随着移动互联网与位置服务的深度融合，旅行推荐系统已成为智能交通与个性化服务领域的研究热点。IntTravel数据集由AMAP-ML团队于2025年构建并公开发布，作为首个面向集成化多任务旅行推荐的大规模公开数据集，其核心研究问题在于如何统一建模用户在出行决策中涉及的时序、空间、行为模态等多维度复杂因素。该数据集收录了来自1.63亿用户与730万个兴趣点之间的41亿条交互记录，覆盖出发时间、交通方式、目的地选择及途中需求等完整旅行链，为推进生成式推荐框架与多任务协同学习提供了关键数据基础，对智慧城市、移动计算等领域的算法创新具有显著影响力。

当前挑战

在旅行推荐领域，核心挑战在于如何精准捕捉用户动态偏好与复杂上下文（如天气、交通模式）的耦合关系，并实现多任务（如路线规划、POI推荐、出行方式建议）的协同优化。IntTravel数据集构建过程中面临诸多困难：其一，海量异构数据（包括用户画像、时空轨迹、环境信息）的清洗、对齐与隐私保护处理极具复杂性；其二，POI地理坐标信息的缺失或延迟更新（如数据集中已标注的坐标信息待补充）直接影响空间建模的准确性；其三，超大规模交互记录（超40亿条）的高效存储、索引与采样策略设计对计算架构提出严峻考验。

常用场景

经典使用场景

在移动计算与智能推荐领域，IntTravel数据集以其涵盖163亿用户与73亿兴趣点的庞大规模，为集成多任务旅行推荐研究提供了坚实基础。该数据集经典应用于训练端到端的生成式推荐框架，通过整合用户出行时序、交通方式、目的地选择及沿途需求等多维度交互信息，支持模型学习用户旅程的完整动态模式。研究者可基于此构建统一模型，同时预测出发时间、出行方式、目的地及途经点，实现旅行规划的全流程智能化推荐，显著提升了推荐系统的综合性能与用户体验。

解决学术问题

IntTravel数据集有效解决了旅行推荐中多任务协同与专业分化的平衡难题。传统方法往往孤立处理行程规划的各环节，导致推荐结果碎片化且缺乏一致性。该数据集通过提供大规模、细粒度的用户交互序列，使研究者能够探索信息保存、选择与分解等机制，从而在统一框架内融合时间预测、交通模式识别、目的地推荐及需求感知等多个子任务。这不仅推动了生成式推荐模型的发展，也为理解人类移动行为的复杂关联提供了宝贵数据支撑，对推荐系统、移动计算及行为分析等学术领域产生了深远影响。

实际应用

在实际应用层面，IntTravel数据集为智能旅行助手、城市交通规划及位置服务优化提供了关键数据资源。基于该数据集训练的模型可部署于在线旅行平台，为用户提供个性化、一体化的行程建议，涵盖从出发时刻到沿途需求的全程规划。同时，其丰富的时空交互数据有助于分析城市热点分布、交通流量模式及用户偏好变迁，为公共交通调度、商业选址及旅游资源管理提供决策依据。这些应用不仅提升了商业服务的智能化水平，也促进了城市移动生态系统的效率与可持续性。

数据集最近研究