five

iTIMO

收藏
arXiv2026-01-16 更新2026-01-17 收录
下载链接:
https://github.com/zelo2/iTIMO
下载链接
链接失效反馈
官方服务:
资源简介:
iTIMO是由多所高校联合构建的旅行行程修改合成数据集,旨在填补动态行程修改研究的数据空白。该数据集基于真实世界行程数据,通过大语言模型驱动的意图扰动任务生成,包含替换、添加、删除三类原子编辑操作,覆盖流行度、空间距离和类别多样性三种扰动意图。数据集构建采用混合评估指标确保质量,可无缝应用于各类旅行数据集,为提升旅行推荐系统实时修改能力提供基准支持。

iTIMO is a synthetic travel itinerary modification dataset jointly constructed by multiple universities, aiming to fill the data gap in dynamic itinerary modification research. This dataset is generated based on real-world travel itinerary data via intent perturbation tasks driven by large language models (LLMs), including three types of atomic editing operations: replacement, addition, and deletion, covering three perturbation intents: popularity, spatial distance, and category diversity. Hybrid evaluation metrics are employed during dataset construction to ensure data quality, and it can be seamlessly applied to various travel datasets, providing benchmark support for enhancing the real-time modification capabilities of travel recommendation systems.
提供机构:
中南大学; 新加坡管理大学; 湖南师范大学; 新加坡科技与设计大学
创建时间:
2026-01-16
原始信息汇总

iTIMO 数据集概述

数据集简介

iTIMO 是一个用于旅行行程修改的大语言模型赋能合成数据集。

数据集内容与结构

数据集位置

发布的基准数据集位于 Benchmark/iTIMO_dataset/ 目录下,包含三个城市子集:

  • Benchmark/iTIMO_dataset/iTIMO-Florence/
  • Benchmark/iTIMO_dataset/iTIMO-Melbourne/
  • Benchmark/iTIMO_dataset/iTIMO-Toronto/

扰动与修改操作说明

在文件名(如 Benchmark/iTIMO_dataset/iTIMO-Florence/Florence_ADD_test.json)中,ADD/DELETE/REPLACE 标记指的是用于创建待修改行程的扰动操作。所需的修改操作是其逆操作

  • *_ADD_*.json → 使用 DELETE 进行修改(黄金标签字段:removed_index
  • *_DELETE_*.json → 使用 ADD 进行修改(黄金标签字段:insert_index, selected_poi, selected_cand_id
  • *_REPLACE_*.json → 使用 REPLACE 进行修改(黄金标签字段:replaced_index, selected_poi, selected_cand_id

文件命名与格式

  • 命名格式:<City>_<PerturbOp>_<split>.json(例如:Florence_ADD_test.json
  • 每个文件是一个 JSON 字典:{ "<sid>": sample, ... }
  • sample["example_input"] 包含:
    • need_to_modify itinerary[[name, category, lon, lat, popularity], ...]
    • hint:关于流行度、类别、空间维度的自然语言约束
    • threshold_low, threshold_high:空间阈值(公里)
    • Candidate POIs:存在于 *_DELETE_*.json*_REPLACE_*.json 文件中(用于 ADD/REPLACE 修改);通常在 *_ADD_*.json 中不存在

数据集规模

数据集统计信息在论文(表2)中提供。

项目组成部分

数据构建与扰动

相关脚本和说明位于 DatasetPipeline/ 目录。

基准测试与评估

相关脚本和说明位于 Benchmark/ 目录。发布的基准数据分割(每个城市/操作的训练/验证/测试集)位于 Benchmark/iTIMO_dataset/

依赖与环境

  • 推荐 Python 版本 >=3.10
  • 运行 DatasetPipeline/V31FM_perturbation.pyDatasetPipeline/baseline_perturbation.pyBenchmark/Prompting_LLM.py 需要访问相应的 API(如 DeepSeek、Azure OpenAI、OpenAI 等)。
搜集汇总
数据集介绍
main_image_url
构建方式
在旅游推荐系统领域,现有研究多聚焦于静态行程规划,而动态行程修改任务因缺乏相应数据而鲜有探索。iTIMO数据集通过一种创新的意图驱动扰动框架构建,该框架将需要修改的行程生成视为对真实世界行程的扰动任务。具体而言,研究者利用大型语言模型,基于三种原子编辑操作(替换、添加、删除)和三种核心用户意图(破坏流行度、空间距离或类别多样性),对来自多伦多、墨尔本和佛罗伦萨的公开旅行数据集中的真实行程进行扰动。为确保扰动质量,设计了一套混合评估指标,从宏观分布偏移和微观排序变化两个角度量化扰动效果,并引入了函数调用和记忆模块来优化大型语言模型的生成准确性与多样性,最终通过人工过滤噪声,形成了高质量、可扩展的行程修改数据集。
使用方法
iTIMO数据集主要用于评估和推进行程修改任务的研究。使用者可按照标准的机器学习流程,将数据集划分为训练集、验证集和测试集,以开发和测试各种模型。该数据集支持对大型语言模型、大型推理模型以及经过监督微调的模型进行基准测试,评估其在面对不同操作和意图组合时的修改准确性与鲁棒性。研究过程中,可结合检索增强生成、上下文学习等先进方法,探索模型在复杂多阶段修改中的能力边界。数据集的输入通常包括需要修改的行程、候选兴趣点集合以及高级提示,输出则为模型生成的修改后行程。通过分析模型在iTIMO各子集上的表现,研究者能够深入理解行程修改任务的难点,并为旅游推荐系统的实时适应性优化提供实证依据。
背景与挑战
背景概述
iTIMO数据集由中南大学、新加坡管理大学、湖南师范大学及新加坡科技设计大学的研究团队于2024年联合构建,旨在填补旅行推荐系统中行程修改任务的空白。该数据集聚焦于行程修改这一动态场景,通过大型语言模型对真实世界行程进行意图驱动的扰动,生成包含替换、添加、删除操作的需修改行程实例。其核心研究问题在于解决现有旅行数据集缺乏需修改行程数据的关键瓶颈,从而推动行程个性化修改技术的研究。iTIMO基于多伦多、墨尔本和佛罗伦萨三个公开旅行数据集构建,覆盖不同地理与文化背景,为行程修改任务的算法评估与模型优化提供了重要基准。
当前挑战
iTIMO数据集面临的挑战主要体现在两个方面:在领域问题层面,行程修改任务需处理多阶段操作(如同时选择位置与兴趣点)及复杂依赖关系(如空间连贯性、类别多样性),当前大型语言模型在此类任务中表现仍受限,尤其在添加操作上因搜索空间增大而更具挑战性。在构建过程层面,生成高质量需修改行程需克服真实数据缺乏、大规模人工标注成本高以及主观偏差引入的可靠性问题。研究团队通过设计混合评估指标确保扰动有效性,并利用函数调用与记忆模块提升大型语言模型的扰动准确性与多样性,但数据生成仍受限于用户无关的意图设定与时间特征的缺失。
常用场景
经典使用场景
在旅游推荐系统领域,iTIMO数据集为行程修改任务提供了首个专门化的基准资源。该数据集通过大语言模型驱动的扰动方法,将真实世界行程转化为需要修改的实例,涵盖了添加、替换和删除三种原子操作,并基于流行度、空间距离和类别多样性三种意图构建扰动场景。这一设计使得iTIMO能够系统性地模拟用户在旅行前后因主观偏好或客观条件变化而产生的行程调整需求,为评估和提升智能行程规划系统的动态适应能力奠定了数据基础。
解决学术问题
iTIMO数据集主要解决了旅游推荐系统中行程修改任务长期缺乏高质量基准数据的关键瓶颈。传统研究多集中于静态行程规划,而动态修改场景因数据稀缺难以深入探索。该数据集通过意图驱动的扰动框架,生成了多样化的需要修改的行程实例,使研究者能够系统评估大语言模型在复杂多阶段操作中的性能。其混合评估指标从宏观分布偏移和微观排序变化两个维度量化扰动效果,为行程修改任务的算法设计与优化提供了可靠的验证标准,推动了旅游推荐系统向实时响应和个性化适应方向的发展。
实际应用
在实际应用中,iTIMO数据集能够直接支持智能旅游助手和行程规划平台的动态调整功能开发。例如,当用户因景点拥挤、时间变更或兴趣转移需要临时修改行程时,系统可基于该数据集训练的模型快速生成符合新约束的优化方案。此外,该数据集涵盖多城市地理上下文,有助于构建跨地域的通用行程修改系统,提升旅游推荐服务在真实场景中的鲁棒性和用户满意度。其合成数据生成流程也可迁移至其他垂直领域,为需要动态调整的序列决策任务提供可扩展的数据构建范式。
数据集最近研究
最新研究方向
在旅游推荐系统领域,iTIMO数据集的推出标志着行程修改任务成为新兴研究热点。该数据集通过大语言模型驱动的合成方法,构建了基于真实行程的扰动实例,覆盖添加、替换与删除三类原子操作,并融入流行度、空间距离与类别多样性三种意图的扰动机制。当前研究聚焦于探索大语言模型在动态行程修改中的能力边界,尤其关注多阶段操作的性能瓶颈与优化策略。前沿工作深入分析检索增强生成与监督微调等方法的协同效应,揭示提示对齐在训练与推理间的一致性对模型性能的关键影响。这些发现为构建更灵活、个性化的实时旅游推荐系统提供了新的理论框架与技术路径,推动了行程规划从静态生成向动态交互的范式转变。
相关研究论文
  • 1
    iTIMO: An LLM-empowered Synthesis Dataset for Travel Itinerary Modification中南大学; 新加坡管理大学; 湖南师范大学; 新加坡科技与设计大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作