MobilityBench
收藏github2026-02-26 更新2026-02-27 收录
下载链接:
https://github.com/AMAP-ML/MobilityBench
下载链接
链接失效反馈官方服务:
资源简介:
MobilityBench是一个用于评估现实世界移动场景中基于LLM的路线规划代理的可扩展基准。它基于来自Amap的大规模匿名用户查询构建,覆盖了全球多个城市的广泛路线规划意图。数据集包括100,000个案例,覆盖22个国家和350多个城市,具有长尾地理分布。
MobilityBench is a scalable benchmark for evaluating LLM-based route planning agents in real-world mobility scenarios. Built on large-scale anonymous user queries sourced from Amap, it covers a broad spectrum of route planning intentions across numerous cities worldwide. The dataset contains 100,000 cases, spanning over 350 cities in 22 countries, and exhibits a long-tail geographic distribution.
创建时间:
2026-02-06
原始信息汇总
MobilityBench 数据集概述
数据集基本信息
- 数据集名称:MobilityBench
- 核心目标:用于评估基于大语言模型的路线规划智能体在真实世界移动场景中的性能。
- 数据来源:基于高德地图的大规模匿名化用户查询构建。
- 当前状态:相关工作正在评审中,完整数据集将逐步发布。
数据集规模与覆盖范围
- 数据量:包含 100,000 个场景。
- 地理覆盖:覆盖 22 个国家和 350+ 个城市(包括大都市区)。
- 分布特点:具有长尾地理分布。
场景与意图分布
数据集包含 11 种意图,主要分为以下四个大类:
- 基础信息检索:占比 36.6%
- 路线依赖信息检索:占比 9.6%
- 基础路线规划:占比 42.5%
- 偏好约束路线规划:占比 11.3%
数据内容与格式
数据字段说明
| 字段名 | 描述 |
|---|---|
query |
用户查询文本 |
context |
上下文信息(JSON格式,例如当前位置、城市) |
task_scenario |
细粒度任务类别 |
intent_family |
用于评估聚合的粗粒度意图类别 |
tool_list |
预期的工具调用(JSON数组) |
route_ans |
真实路线答案(JSON) |
数据示例
| 查询 | 任务场景 | 意图家族 |
|---|---|---|
| 去大石桥不走高速 | 选项约束路线规划 | 偏好约束路线规划 |
| 现在成都大道会堵车吗?看一下地图,会不会堵 | 交通信息查询 | 基础路线规划 |
| 我在哪 | 地理位置查询 | 基础信息检索 |
| 知道离滇池会展中心有多远 | 路线属性查询 | 路线依赖信息检索 |
| 到寨河收费站入口不走高速 | 选项约束路线规划 | 偏好约束路线规划 |
数据集特点与评估框架
- 结构化真实数据:提供所需的工具调用和可验证的证据。
- 确定性重放沙箱:所有工具调用在一个确定性重放沙箱中执行,以实现可复现的评估。
- 多维评估协议:以结果有效性为核心,辅以对指令理解、规划、工具使用和效率的评估。
获取与使用
- 下载地址:https://huggingface.co/datasets/GD-ML/MobilityBench/tree/main
- 存放路径:下载后需将文件置于
data/目录下。
相关资源
- 论文页面:https://arxiv.org/abs/2602.22638
- 项目代码仓库:https://github.com/your-org/mobility-bench.git
搜集汇总
数据集介绍
构建方式
在智能交通与导航系统快速发展的背景下,MobilityBench的构建依托于高德地图(Amap)平台的大规模匿名化用户查询数据。该数据集通过系统性的数据采集与清洗流程,从全球22个国家、超过350个城市的真实出行场景中提取了十万条交互记录。其构建过程采用了严谨的任务分类体系,将用户意图精细划分为基础信息检索、路线依赖信息检索、基础路线规划及偏好约束路线规划等四大类,并进一步细化为11种具体场景。每条数据均经过结构化处理,不仅包含原始查询文本与上下文信息,还标注了预期的工具调用序列及可验证的真实路线答案,从而为评估任务提供了可靠的基础事实。
特点
MobilityBench的显著特征在于其高度的真实性与系统性覆盖。数据集源自现实世界的出行查询,地理分布呈现长尾特性,能够有效反映不同区域用户的多样化需求。为了确保评估的可复现性,该基准集成了确定性的API重放沙箱环境,消除了在线服务波动带来的干扰。在评估维度上,它构建了以结果有效性为核心的多维评估协议,同步考察智能体在指令理解、规划能力、工具使用效率及执行效能等方面的综合表现。这种设计使得MobilityBench能够对基于大语言模型的路线规划智能体进行深入、稳定且全面的性能评测。
使用方法
使用MobilityBench进行评估需遵循其提供的标准化工作流程。首先通过HuggingFace平台下载数据集文件并放置于指定目录,随后利用项目提供的命令行工具配置实验环境与模型参数。基准测试支持两种主流的智能体架构:默认的“计划-执行”框架采用规划者、执行者与报告者的分工协作模式;而ReAct框架则遵循推理、行动与观察的循环交互机制。用户可通过命令行指定模型、数据集路径及评估框架,并选择在沙箱模式或实时服务下运行测试。运行结束后,系统可生成涵盖多维度指标的详细评估报告,支持对智能体性能进行量化分析与横向比较。
背景与挑战
背景概述
随着大型语言模型在智能体应用领域的快速发展,对其实世界任务执行能力的系统性评估需求日益迫切。MobilityBench由阿里巴巴集团的高德地图团队于2026年提出,旨在为基于大语言模型的路径规划智能体构建一个可扩展的评估基准。该数据集源于高德地图的大规模匿名用户查询,覆盖全球22个国家超过350个城市的真实出行场景,包含十万个交互片段,并依据十一种用户意图进行了系统化分类。其核心研究问题聚焦于如何科学评估智能体在复杂、动态的真实出行环境中的多维度性能,包括指令理解、规划能力、工具调用及结果有效性,从而推动具身智能与地理信息服务领域的交叉研究。
当前挑战
MobilityBench致力于解决真实世界路径规划智能体评估的挑战,其核心在于如何构建一个既反映现实复杂性又支持可重复科学评测的基准。首要挑战源于领域问题的本质:真实出行场景具有高度的动态性、长尾分布的地理偏好以及多样化的用户约束,这要求评估框架必须超越简单的答案匹配,深入考量规划过程的合理性与结果的有效性。在构建过程中,团队面临如何从海量匿名查询中提取结构化真值、设计能够消除在线服务环境波动的确定性回放沙箱,以及建立一套兼顾结果正确性、指令理解、规划逻辑、工具使用效率的多维评估协议等关键难题。
常用场景
经典使用场景
在智能交通与城市计算领域,MobilityBench作为评估基于大语言模型的路径规划智能体的基准,其经典使用场景聚焦于模拟真实世界中的多模态出行查询。该数据集源自高德地图的大规模匿名用户请求,覆盖全球22个国家、超过350个城市的多样化出行意图,包括基础路径规划、偏好约束路径规划、交通信息查询及地理位置检索等。研究者通过其内置的确定性API重放沙箱,能够在消除实时服务环境变异的前提下,系统性地测试智能体在复杂城市路网中的规划能力、工具调用准确性及多维度决策效能。
衍生相关工作
围绕MobilityBench衍生的经典工作主要集中在智能体架构创新与跨领域评估框架的拓展。例如,研究团队基于其提供的Plan-and-Execute与ReAct两种框架,进一步开发了分层规划与多智能体协作模型,以处理长尾地理分布中的罕见出行场景。同时,该数据集也激发了交通语义理解、低资源城市适应性建模以及隐私保护型路径生成等相关研究,促进了自然语言处理、强化学习与城市信息学等多学科的交叉融合,为下一代智能出行系统的演进奠定了方法论基础。
数据集最近研究
最新研究方向
在智能交通与城市计算领域,MobilityBench作为首个基于真实世界大规模出行查询构建的基准测试,正推动基于大语言模型的路径规划智能体研究迈向可复现、多维度的系统化评估阶段。该数据集源自高德地图的匿名化用户查询,覆盖全球22个国家、350多个城市的多样化出行意图,其前沿探索聚焦于构建确定性API重放沙箱环境,以消除在线服务的不确定性,确保评估结果的严谨性。研究热点紧密围绕智能体在复杂城市路网中的多维度能力评测,不仅关注路径规划的结果有效性,更深入探究指令理解、任务规划、工具调用效率等核心环节,为自动驾驶、出行助手等实际应用场景提供了标准化、可扩展的评估框架,对提升智能体在真实动态环境中的决策鲁棒性与实用性具有深远意义。
以上内容由遇见数据集搜集并总结生成



