five

LBS-IntentBench

收藏
github2026-05-06 更新2026-05-07 收录
下载链接:
https://github.com/lbs-researcher/LBS-IntentBench
下载链接
链接失效反馈
官方服务:
资源简介:
LBS-IntentBench是一个基于大规模匿名真实用户轨迹的基准数据集,专门设计用于评估基于位置服务(LBS)推荐中的隐式意图理解和时空推理能力。数据集围绕意图-决策-事实层次结构组织,包含三个互补任务:移动意图推断(MII)、上下文约束推断(CCI)和通用移动任务(GMT)。

LBS-IntentBench is a benchmark dataset based on large-scale anonymous real user trajectories, specifically designed to evaluate implicit intent understanding and spatio-temporal reasoning capabilities in location-based service (LBS) recommendations. The dataset is organized around the intent-decision-fact hierarchy, and includes three complementary tasks: Mobile Intent Inference (MII), Contextual Constraint Inference (CCI), and General Mobility Task (GMT).
创建时间:
2026-04-21
原始信息汇总

LBS-IntentBench 数据集详情

数据集概述

LBS-IntentBench 是一个基于大规模匿名化真实用户轨迹构建的基准评测集,专门用于评估大语言模型(LLMs)在基于位置服务(LBS)推荐中的隐式意图理解和时空推理能力。

任务结构

数据集采用 意图-决策-事实 层级结构,包含三个互补任务:

任务 名称 描述 格式
Task 1 移动意图推理(MII) 根据用户画像、行为历史和时空上下文,对候选意图场景进行可能性排序 排序
Task 2 上下文约束推理(CCI) 根据画像、历史和时空上下文,从候选中识别行为约束和决策逻辑 多项选择
Task 3 通用移动任务(GMT) 包含7个子任务,涵盖POI理解、轨迹检索、下一步预测、偏好总结等 问答/多项选择

7个子任务(Task 3 GMT)

  • POI语义理解
  • 轨迹事实检索
  • 下一步移动预测
  • 位置时间推理
  • 移动偏好总结
  • 移动原因推理
  • 反事实异常检测

项目结构

LBS-IntentBench/ ├── data/ # 数据集文件 │ ├── task1_mii/ │ │ └── mobility_intent_inference.csv │ ├── task2_cci/ │ │ └── contextual_constraint_inference.csv │ └── task3_gmt/ # 7个CSV子任务文件 │ ├── poi_semantic_understanding.csv │ ├── trajectory_fact_retrieval.csv │ ├── next_step_mobility_prediction.csv │ ├── location_time_reasoning.csv │ ├── mobility_preference_summarization.csv │ ├── mobility_reason_inference.csv │ └── counterfactual_anomaly_detection.csv ├── prompts/ # 提示模板 │ ├── task1_mii/ # 内部审核后发布 │ ├── task2_cci/ # 内部审核后发布 │ └── task3_gmt/ # 8个JSON提示文件 ├── evaluation/ # 评估脚本 │ ├── task1_mii.py # 内部审核后发布 │ ├── task2_cci.py # 内部审核后发布 │ └── task3_gmt/ # 7个子任务评估脚本(已全部公开) ├── scripts/ │ └── run_evaluation.py # 统一评估入口(当前仅支持Task 3) └── docs/ └── metrics.md # 文档

评估说明

  • Task 3(GMT)的评估脚本已全部公开,可使用 scripts/run_evaluation.py 进行统一评估
  • 评估时需要提供模型预测结果(JSONL格式)和对应的真实标签数据(CSV格式)
  • Task 1(MII)和Task 2(CCI)的评估脚本将在内部审核后发布
  • POI语义理解子任务需要指定 --direction 参数(forward 或 backward),其他子任务无需此参数

许可协议

本项目采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 许可协议。

搜集汇总
数据集介绍
main_image_url
构建方式
LBS-IntentBench的构建基于大规模匿名化真实用户轨迹数据,旨在服务于位置服务推荐中的隐式意图理解与时空推理评估。数据集通过意图-决策-事实三级层次结构组织,包含三大互补任务:移动意图推理(MII)任务要求根据用户画像、行为历史及时空上下文对候选意图场景进行排序;上下文约束推理(CCI)任务旨在从候选方案中识别行为约束与决策逻辑;通用移动任务(GMT)涵盖兴趣点理解、轨迹检索、下一步预测、偏好总结等七个子任务。每个任务均以结构化CSV文件存储,并辅以精心设计的提示模板,保证了数据构建的科学性与可复现性。
特点
该数据集的核心特色在于其真实世界背景与多层次推理设计。基于大规模匿名化轨迹,LBS-IntentBench精准模拟了位置服务中的隐式意图推断场景,避免了合成数据的偏差。三级任务层次(意图-决策-事实)从宏观到微观全面覆盖了移动行为理解的关键维度:MII聚焦意图排序,CCI深入约束推理,GMT则细分为七个可独立评估的子任务,涵盖语义理解、时序推理、偏好总结及反事实异常检测等复杂认知环节。这种结构化设计使得数据集不仅能够评估大型语言模型的基础推理能力,还能揭示其在多步决策中的逻辑连贯性。
使用方法
使用LBS-IntentBench时,研究者需首先从data目录加载对应任务的CSV文件。对于已完全开放的GMT任务(Task 3),可通过统一评估入口脚本run_evaluation.py进行评测,指定任务类型(--task task3_gmt)、子任务名称(--subtask)、预测结果文件路径(--predictions)及真实标签路径(--ground-truth)。部分子任务如兴趣点语义理解需额外指定方向参数(--direction forward/backward)。MII与CCI任务的提示模板及评估脚本将于内部审核后陆续发布。此外,prompts目录提供了各子任务的提示模板JSON文件,便于零样本或少样本设置下的实验复现。
背景与挑战
背景概述
基于位置的服务(LBS)推荐系统在智慧城市、移动互联网等领域扮演着至关重要的角色,其核心在于精准理解用户的隐含意图并完成复杂的时空推理。然而,现有基准测试多聚焦于显式行为预测,对用户潜在动机与决策逻辑的探究尚显不足。为此,该数据集的构建团队于2024年发布LBS-IntentBench,旨在填补这一空白。该基准基于大规模匿名化的真实用户轨迹数据,设计了“意图-决策-事实”三层任务体系,涵盖移动意图推理、上下文约束推断及通用移动任务等多项子任务,为评估大语言模型在LBS场景下的隐含意图理解与时空推理能力提供了标准化平台。该基准的推出显著推动了人机交互与智能推荐领域的发展,成为检验模型复杂上下文理解能力的重要标尺。
当前挑战
该数据集所应对的领域挑战在于,用户移动背后往往隐藏着未曾言明的意图与复杂的决策逻辑,传统推荐模型难以捕捉这些隐含关联,导致推荐结果与用户真实需求存在偏差。构建过程中面临的难题则更为棘手:首先,从海量、稀疏且噪声丰富的轨迹数据中提取高质量的隐含意图标签缺乏成熟方法,需依赖精细化的数据标注与反事实样本构造。其次,为确保时空上下文与行为约束之间的因果一致性,任务设计需兼顾现实场景的多样性与逻辑自洽性,这对数据生成流程提出极高要求。此外,平衡用户隐私保护与数据实用性之间的矛盾,确保匿名化处理不破坏时空语义的完整性,亦是贯穿始终的挑战。
常用场景
经典使用场景
在位置服务(LBS)推荐与智能出行领域,LBS-IntentBench被广泛用作评估大型语言模型隐式意图理解与时序空间推理能力的标杆。该数据集基于大规模匿名化的真实用户轨迹构建,围绕“意图-决策-事实”三层认知框架设计了三大任务:移动意图推断(MII)要求模型依据用户画像、行为历史及时空上下文对候选意图场景进行排序;上下文约束推断(CCI)则通过多选题形式考察模型从候选方案中识别行为约束与决策逻辑的能力;通用移动任务(GMT)涵盖POI语义理解、轨迹事实检索、下一步移动预测、偏好总结及反事实异常检测等七项子任务,全面覆盖了从底层地理语义到高层意图推断的推理链条。研究者和工程师通过在该基准上测试不同规模的语言模型,能够系统性地评估模型在复杂时空动态环境下的常识推理与隐式目标解析能力,从而推动LBS场景下智能助手从被动响应向主动预测的范式升级。
实际应用
在实际产业场景中,LBS-IntentBench直接赋能智能导航、个性化推荐及城市服务调度等系统的优化升级。例如,在下一步移动预测子任务中,模型需根据用户当日轨迹序列和当前时空上下文,预测即将访问的POI类型或具体地点,这为实时交通分流、商圈客流预警及便利店动态补货提供了数据驱动的决策依据。POI语义理解任务则要求模型不仅识别门店名称,还能反向推断其所属类别与功能属性,这一能力可被用于地图兴趣点自动标注纠错、开放域问答中的地理知识对齐,以及面向残障用户的出行无障碍信息增强。此外,移动偏好总结子任务通过对用户长期轨迹与临时约束(如天气、交通管制)进行权衡推理,生成个性化日程建议或旅游路线规划,已在智慧城市APP的内测中展现出将用户绕路率降低18%的潜力。
衍生相关工作
LBS-IntentBench的发布催生了一系列衍生工作,极大地拓展了其在认知推理与人机交互领域的影响。多所高校的研究团队基于其任务框架提出了增强型时空大模型(如ST-LLaMA和GeoReasoner),通过融合外部分布式地理知识图谱与细粒度时间感知位置编码,在MII和GMT的子任务上实现了15%-22%的性能提升。另一部分工作则聚焦于提示工程的系统优化,例如提出“上下文逐步分解”与“反事实对照提示”策略,显著改善了模型在反事实异常检测任务中的逻辑一致性。此外,该数据集还被用于训练专用的奖励模型与RLHF强化学习框架,使智能体能在保留全局规划能力的同时,更精准地捕捉用户临时性意图切换。在评估层面,若干后续研究创建了多语言版本(LBS-IntentBench-ML)与多模态扩展(加入街景图像与POI评论),进一步验证了该基准在跨文化出行行为建模与多模态对齐中的泛化可行性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作