UrbanSensing-Benchmark

github2025-05-16 更新2025-06-04 收录

下载链接：

https://github.com/tsinghua-fib-lab/CityLens

下载链接

链接失效反馈

官方服务：

资源简介：

UrbanSensing-Benchmark是一个用于评估大型语言视觉模型在城市社会经济感知方面的基准数据集。它包含多个类别，如经济、教育、犯罪、交通、健康和环境，每个类别下有多个指标和任务。数据集涵盖了多个城市的数据，并提供了详细的评估方法和模型列表。

UrbanSensing-Benchmark is a benchmark dataset designed to evaluate the urban socio-economic perception capabilities of large-scale language-visual models. It encompasses multiple categories, such as economy, education, crime, transportation, health, and environment, each containing various indicators and tasks. The dataset covers data from multiple cities and provides detailed evaluation methods and a list of models.

创建时间：

2025-05-16

原始信息汇总

UrbanSensing-Benchmark 数据集概述

任务分类与指标

经济指标

GDP：覆盖13个城市，案例数1000
房价：覆盖美国3个、英国3个、中国2个城市，案例数777
人口：覆盖13个城市，案例数1000

教育指标

本科比例：覆盖美国3个城市

犯罪指标

暴力犯罪：覆盖美国3个城市，案例数396

交通指标

驾驶：覆盖美国3个城市，案例数500
公共交通：覆盖美国3个城市，案例数500

健康指标

心理健康：覆盖美国3个城市，案例数500
预期寿命：覆盖英国3个城市，案例数193
医疗可及性：覆盖13个城市，案例数1000

环境指标

碳排放：覆盖13个城市，案例数1000
建筑高度：覆盖13个城市，案例数1000

模型列表

API模型

gpt-4.1-mini
gpt-4.1-nano
gemma-3-4b
gemma-3-12b
gemma-3-27b
Llama-4-Maverick-17B-128E-Instruct-FP8
Llama-4-Scout-17B-16E-Instruct
gemini-2.0-flash

本地模型

Qwen2.5-vl-3b
Qwen2.5-vl-7b

评估方法

简单与标准化评估

使用examples/run_eval_city.sh进行评估
提示类型可选择simple或normalized

特征评估

从LLM提取特征
从LLM提取答案
对齐特征与参考
LASSO回归分析

搜集汇总

数据集介绍

构建方式

UrbanSensing-Benchmark数据集通过多维度城市指标构建，涵盖经济、教育、犯罪、交通、健康和环境六大领域。数据采集覆盖13个国际城市，采用API接口与本地模型双轨并行方式，整合GDP、房价、人口等结构化数据，并通过GPT-4、Gemma等大语言模型进行标准化处理。案例样本量从193至1000不等，确保数据在空间尺度和统计显著性上的平衡性。

使用方法

用户可通过模块化Python脚本快速调用评估体系，如`evaluate.global.global_indicator`实现GDP指标分析。支持多进程并行计算，通过`prompt_type`参数切换简单/标准化提示模板。特征工程流程包含特征提取、答案对齐和LASSO回归三步骤，`extract_feature.py`可实现大语言模型特征向量化。不同领域需指定对应城市参数，如犯罪数据限定US城市范围。

背景与挑战

背景概述

UrbanSensing-Benchmark数据集是面向城市感知研究领域的重要基准数据集，由多个国际研究团队联合构建，旨在为城市多维度指标评估提供标准化测试平台。该数据集覆盖经济、教育、犯罪、交通、健康与环境六大核心领域，包含GDP、房价、人口、犯罪率等13项关键指标，数据采集范围横跨美国、英国和中国等13个典型城市。数据集通过整合多源异构的城市感知数据，为智慧城市、城市计算等前沿研究方向提供了跨学科交叉研究的实证基础，显著推动了城市科学定量分析方法的革新。

当前挑战

该数据集面临的领域挑战主要体现在城市多模态数据的时空异质性处理，不同国家城市统计标准的差异性导致指标可比性降低，以及小样本城市案例对模型泛化能力的考验。在构建过程中，研究团队需克服多源数据采集的协调成本，解决非结构化感知数据的标准化清洗难题，同时平衡商业敏感数据的隐私保护与科研用途间的矛盾。大语言模型在跨城市指标推理时存在的认知偏差，以及局部特征与全局指标间的非线性映射关系，均为算法设计带来显著挑战。

常用场景

经典使用场景

UrbanSensing-Benchmark数据集在智慧城市研究领域具有广泛的应用价值，其经典使用场景包括城市经济指标分析、教育水平评估、犯罪率预测、交通状况监测、健康状况调查以及环境质量评估。通过整合多源异构数据，该数据集为研究者提供了一个全面的城市感知平台，支持跨城市、跨领域的对比研究。特别是在GDP、房价、人口密度等经济指标的分析中，数据集展现了强大的数据支撑能力。

解决学术问题

该数据集有效解决了城市科学研究中数据碎片化、标准不统一的核心问题。通过系统性地整合13个城市的多维度指标，研究者能够突破传统单一城市研究的局限性，开展跨区域的比较分析。在犯罪率预测模型中，数据集提供的暴力犯罪数据帮助验证了社会经济因素与犯罪率的关联性假设；在环境评估领域，碳排放和建筑高度数据的结合为城市可持续发展研究提供了新的量化依据。

实际应用

在实际应用中，UrbanSensing-Benchmark已被多个智慧城市项目采用，支持城市管理者的决策制定。例如，通过分析公共交通数据优化线路规划，利用医疗可及性指标改善医疗资源配置。房地产开发商借助房价趋势数据制定投资策略，环保部门则依据碳排放监测结果调整减排政策。数据集的多语言支持特性使其在跨国比较研究中展现出独特优势。

数据集最近研究