MobilityBench

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/GD-ML/MobilityBench

下载链接

链接失效反馈

官方服务：

资源简介：

MobilityBench 是一个用于评估现实世界移动场景中路径规划代理的可扩展基准。该数据集基于来自 Amap 的大规模匿名移动查询构建，组织了一个全面的任务分类法，并提供了结构化的真实数据（包括所需的工具调用和可验证的证据）。所有工具调用都在确定性重放沙箱中执行，以实现可重复的多维评估。数据集规模覆盖了 22 个国家和 350 多个城市的 100,000 个场景，具有长尾地理分布。数据格式包括查询文本、上下文信息（如当前位置、城市）、细粒度任务类别、粗粒度意图类别、预期工具调用和真实路径答案。适用于路径规划、信息检索等任务。

创建时间：

2026-02-25

原始信息汇总

MobilityBench 数据集概述

数据集基本信息

数据集名称: MobilityBench
主要用途: 评估现实世界移动场景中的路线规划智能体
任务类别: 问答
标签: 智能体、基准测试、路线规划
数据规模: 50,000 至 100,000 条数据
当前状态: 工作正在评审中，完整数据集将逐步发布

核心特点

数据来源: 基于高德地图的大规模匿名移动查询构建。
评估框架: 提供结构化真实数据（包括必需的工具调用和可验证的证据），所有工具调用均在确定性重放沙箱中执行，以实现可复现的多维度评估。
规模与覆盖: 包含跨越22个国家和350+个城市（包括大都市区）的100,000个场景，具有长尾地理分布。

场景与意图分布

数据集包含11种意图，具体分布如下：

36.6% 基础信息检索
9.6% 路线依赖信息检索
42.5% 基础路线规划
11.3% 偏好约束路线规划

数据格式

数据包含以下字段：

字段名	描述
`query`	用户查询文本
`context`	上下文信息（JSON格式，例如当前位置、城市）
`task_scenario`	细粒度任务类别
`intent_family`	用于评估聚合的粗粒度意图类别
`tool_list`	预期的工具调用（JSON数组）
`route_ans`	真实路线答案（JSON）

数据示例

查询	任务场景	意图类别
去大石桥不走高速	选项约束路线规划	偏好约束路线规划
现在成都大道会堵车吗？看一下地图，会不会堵	交通信息查询	基础路线规划
我在哪	地理位置查询	基础信息检索
知道离滇池会展中心有多远	路线属性查询	路线依赖信息检索
到寨河收费站入口不走高速	选项约束路线规划	偏好约束路线规划

引用信息

如果使用本数据集，请引用以下论文： bibtex @article{song2026mobilitybench, title={MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios}, author={Song, Zhiheng and Zhang, Jingshuai and Qin, Chuan and Wang, Chao and Chen, Chao and Xu, Longfei and Liu, Kaikui and Chu, Xiangxiang and Zhu, Hengshu}, journal={arXiv preprint arXiv:2602.22638}, year={2026} }

搜集汇总

数据集介绍

构建方式

MobilityBench数据集的构建源于对现实世界移动性场景的深刻洞察，其核心数据来源于高德地图的大规模匿名化移动查询。研究团队依据一套详尽的任务分类法对这些查询进行系统化组织，确保每个查询都配备了结构化的真实标签，包括必要的工具调用序列与可验证的证据链。所有工具调用均在确定性的回放沙箱中执行，从而保障了评估过程的可复现性与多维度分析的严谨性。

特点

该数据集以其卓越的规模与覆盖广度而著称，囊括了跨越22个国家及超过350个城市的十万个交互情景，其地理分布呈现出显著的长尾特性，真实反映了全球移动模式的多样性。数据集内部精细划分了十一种用户意图，涵盖了从基础信息检索、路线依赖信息查询到基础路线规划及偏好约束路线规划等核心场景，其中基础路线规划与信息检索类任务占据了主导比例，为评估智能体在复杂现实条件下的综合能力提供了全面而均衡的测试基准。

使用方法

使用MobilityBench进行评估时，研究者需将待测的路线规划智能体接入其提供的确定性沙箱环境。评估流程围绕用户查询及其附带的上下文信息展开，通过对比智能体输出的工具调用序列和最终路线答案与数据集标注的真实标签，即可在多维度上量化其性能。该框架支持对智能体在理解复杂约束、利用实时信息以及生成可行路径等方面的能力进行系统性、可复现的评测，是推动移动智能体技术发展的关键工具。

背景与挑战

背景概述

随着智能交通系统和出行服务平台的快速发展，对能够理解复杂用户意图并执行精准路径规划的智能体提出了更高要求。MobilityBench数据集由AMAP-ML团队于2026年创建，旨在为现实世界移动场景中的路径规划智能体提供一个可扩展的评估基准。该数据集基于高德地图的大规模匿名出行查询构建，覆盖全球22个国家及350多个城市，包含十万个交互情景，并依据精细化的任务分类法组织。其核心研究问题聚焦于如何系统评估智能体在多样化、长尾分布的真实地理环境中的多维度规划能力，为自动驾驶、导航助手及城市计算等领域的研究提供了结构化的真实数据与可复现的评测框架。

当前挑战

在路径规划领域，智能体需应对用户查询中隐含的复杂约束、动态交通信息融合以及长尾地理分布的泛化能力等固有难题。MobilityBench针对这些挑战，通过构建包含偏好约束规划、实时交通查询等十一类意图的细粒度任务体系，要求智能体不仅生成路径，还需调用正确工具并提供可验证证据。数据构建过程中，团队需处理大规模匿名查询的结构化转换、确保地理覆盖的长尾代表性，并在确定性回放沙箱中实现工具调用的可复现性，这些都对数据的标注一致性、场景多样性与评测的公平性构成了显著挑战。

常用场景

经典使用场景

在智能交通与移动计算领域，MobilityBench作为一项大规模基准测试，其经典使用场景集中于评估和优化路线规划智能体在真实世界移动情境下的性能。该数据集通过涵盖基础信息检索、偏好约束路径规划等11类意图的多样化查询，模拟了用户在实际出行中可能遇到的多维度需求。研究者可借助其结构化真值标注与确定性回放沙箱，系统性地测试智能体在工具调用、证据验证及路径生成等方面的能力，从而推动面向复杂城市环境的自主导航系统发展。

解决学术问题

MobilityBench致力于解决移动计算与人工智能交叉领域中的若干关键学术问题，包括如何构建可扩展、可复现的路线规划评估框架，以及如何应对长尾地理分布带来的泛化挑战。该数据集通过整合来自真实出行查询的大规模匿名数据，并辅以细粒度任务分类，为研究社区提供了衡量智能体在多样化城市拓扑中表现的标准依据。其意义在于促进了路线规划智能体在鲁棒性、可解释性及用户偏好适配等方面的理论探索与技术突破。

衍生相关工作

围绕MobilityBench，研究社区已衍生出一系列经典工作，主要集中在增强型路线规划智能体架构设计、多模态交通信息融合以及长尾场景下的泛化方法探索。这些工作通常借鉴该数据集的层次化任务分类与结构化真值，开发出能够处理复杂约束、动态环境及不确定性的新型算法。同时，基于其确定性评估沙箱，许多研究进一步提出了可解释性评估指标与鲁棒性测试协议，共同推动了移动智能体评估范式的演进与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集