USTBench

Name: USTBench
Creator: 香港科技大学（广州）
Published: 2025-05-23 15:30:57
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/usail-hkust/USTBench

下载链接

链接失效反馈

官方服务：

资源简介：

USTBench是一个用于评估大型语言模型（LLMs）作为城市智能体进行时空推理能力的基准数据集。该数据集由香港科技大学（广州）的研究团队创建，旨在填补现有研究的空白，这些研究主要关注城市LLM智能体的结果级指标（如预测精度、交通效率），而忽视了其推理过程。USTBench通过四个分解维度（时空理解、预测、规划和反馈反思）来评估LLMs的时空推理能力，支持五种多样的城市决策任务和四种时空预测任务。数据集包含62,466个结构化QA对，用于过程级评估和标准化端到端任务评估，从而支持细粒度的诊断和广泛的任务级比较。USTBench提供了构建更适应性和有效的基于LLM的城市智能体和广泛的智慧城市应用的基石。

USTBench is a benchmark dataset for evaluating the spatio-temporal reasoning capabilities of large language models (LLMs) as urban AI agents. This dataset was created by the research team from The Hong Kong University of Science and Technology (Guangzhou), aiming to fill the gap in existing research, which mainly focuses on outcome-level metrics such as prediction accuracy and traffic efficiency of urban LLM agents while ignoring their reasoning processes. USTBench evaluates the spatio-temporal reasoning capabilities of LLMs through four decomposed dimensions: spatio-temporal understanding, prediction, planning, and feedback reflection, and supports five diverse urban decision-making tasks and four spatio-temporal prediction tasks. The dataset contains 62,466 structured QA pairs for process-level evaluation and standardized end-to-end task evaluation, thereby enabling fine-grained diagnosis and comprehensive task-level comparison. USTBench provides a cornerstone for building more adaptive and effective LLM-based urban agents and a wide range of smart city applications.

提供机构：

香港科技大学（广州）

创建时间：

2025-05-23

原始信息汇总

城市时空推理基准数据集（USTBench）概述

数据集简介

名称：Urban Spatiotemporal Reasoning Benchmark (USTBench)
用途：评估大型语言模型(LLMs)在城市时空推理任务中的能力
特点：
- 包含时空推理QA任务
- 包含实际城市应用的下游任务

数据集组成

问题回答任务数据：question_answering/Data
下游任务数据：
- 拥堵预测：congestion_prediction/Data
- 下一个POI预测：next_poi_prediction/Data
- 交通信号控制：traffic_signal_control/Data
- POI布局：poi_placement/Data
- 道路规划：road_planning/Data
- 路线规划：route_planning/Data
- 城市规划：urban_planning/Data
- 交通OD预测：traffic_od_prediction/Data
- 社会经济预测：socio_economic_prediction/Data

数据获取

下载地址：https://huggingface.co/datasets/Haruto2099/USTBench-Dataset/
安装方式：将下载的数据复制到对应任务的Data目录下

任务类型

1. 时空推理能力评估QA

构成方式：
- 基于预测任务构建的QA
- 基于决策任务构建的QA

2. 下游城市任务

社会经济预测
拥堵预测
道路规划
城市规划
POI布局
交通信号控制
交通流量预测
路线规划
人类移动预测

运行要求

Python版本：3.10
主要依赖：
- PyTorch 2.5.1
- torchaudio 2.5.1
- torchvision 0.20.1
- CityFlow(交通模拟工具)

运行方式

通用命令格式： bash python run_UST_tasks.py --task <task_name> --batch_size <int> --llm_path_or_name <model_path>
任务特定参数：
- 多数任务需要指定location参数
- 交通信号控制需要dataset和traffic_file参数
- 城市规划需要cfg参数
- 道路规划需要slum_name参数

支持的任务及参数

任务名称	必需参数
question_answering	tasks, datasets
next_poi_prediction	location
poi_placement	location
congestion_prediction	location
route_planning	location
socio_ecomic_prediction	location
traffic_signal_control	dataset, traffic_file
traffic_od_prediction	location
road_planning	slum_name
urban_planning	cfg

搜集汇总

数据集介绍

构建方式

USTBench数据集的构建依托于交互式城市环境UAgentEnv，该环境整合了来自OpenStreetMap的地理空间数据、中国多个大都市区的历史交通流量数据、广州的社会经济时间序列数据、纽约市的出租车轨迹数据以及Foursquare的POI签到记录。通过半随机策略收集决策任务中的环境观察数据，并采用反馈驱动的探索过程生成规划问题的真实答案。数据集包含62,466个结构化问答对，覆盖了时空理解、预测、规划和反馈反思四个关键推理过程，为评估大型语言模型在城市时空推理能力方面提供了全面的基准。

特点

USTBench作为首个专门评估城市智能体时空推理能力的基准，具有多维度的评估框架。其独特之处在于将时空推理能力分解为理解、预测、规划和反思四个维度，并通过结构化问答实现过程级评估。数据集涵盖9个真实城市下游任务和5种城市决策场景，支持细粒度诊断和广泛的任务级比较。特别值得注意的是，该基准引入了反馈反思能力的评估，这在动态城市环境中对智能体的适应性至关重要。

使用方法

使用USTBench进行模型评估时，研究者可通过两种主要方式：过程级评估和端到端任务评估。过程级评估通过结构化问答分析模型在时空理解、预测、规划和反思四个维度的表现；端到端评估则在模拟城市环境中测试模型在具体城市任务中的综合表现。评估时需配置历史观察和预测窗口，如社会经济预测采用6年观察窗口和3年预测窗口，交通相关任务则使用12步观察和预测窗口。数据集还支持消融研究，例如通过移除反思机制来评估其对模型适应性的影响。

背景与挑战

背景概述

USTBench是由香港科技大学（广州）的研究团队于2025年提出的首个专门评估大型语言模型(LLMs)作为城市智能体时空推理能力的基准测试。该数据集聚焦于城市环境下的决策支持和预测任务，旨在填补现有研究仅关注结果级指标（如预测准确率）而忽视推理过程的空白。通过构建交互式城市环境UAgentEnv，USTBench支持从时空理解、预测、规划到反馈反思的四维能力评估，包含62,466个结构化QA对和9个真实城市下游任务，为构建适应性更强的LLM城市智能体奠定了基础。

当前挑战

USTBench面临的挑战主要体现在两个方面：领域问题层面，城市系统具有高度动态性和复杂性，要求智能体具备长期规划能力和对实时反馈的适应性，而当前LLMs在长视野规划和动态环境反思方面表现欠佳；构建过程层面，需要精确模拟真实城市时空动态，整合多源异构数据（如交通流、POI签到等），并设计能同时评估推理过程和最终性能的双重评价体系。值得注意的是，研究发现专精于数学逻辑的推理模型在城市时空任务中并不总是优于通用模型，凸显了领域适配方法的必要性。

常用场景

经典使用场景

USTBench数据集作为首个专门评估大型语言模型（LLM）时空推理能力的基准，在智慧城市领域具有重要应用价值。该数据集通过构建交互式城市环境UAgentEnv，支持对LLM在时空理解、预测、规划和反馈反思四个维度的细粒度评估。其经典使用场景包括交通信号控制优化、拥堵预测、城市设施选址等需要复杂时空推理的决策任务，为研究者提供了标准化评估框架。

实际应用

在实际应用层面，USTBench为构建智能城市代理提供了关键技术支持。基于该基准优化的LLM可应用于实时交通管理系统、城市发展规划平台和应急响应系统等场景。例如，在交通信号控制中，具备时空推理能力的LLM能动态调整信号配时；在城市规划中，可评估不同方案对交通流和公共服务可达性的长期影响。

衍生相关工作

USTBench推动了多个相关领域的研究进展。基于其评估框架，后续研究开发了LLMLight、UrbanGPT等城市智能体系统；在方法论层面，催生了针对时空数据的领域自适应训练技术。该数据集还被扩展应用于多模态城市理解任务，如Open3DVQA等基准将空间推理评估从纯文本扩展到视觉领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集