aiurban/cityshiftbench-scale122
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/aiurban/cityshiftbench-scale122
下载链接
链接失效反馈官方服务:
资源简介:
CityShiftBench Scale-122是一个用于低样本跨城市回归任务的基准数据集,作为NeurIPS 2026评估和数据集审查的一部分。该数据集包含118个通过OpenStreetMap完整性检查的城市和8,359个瓦片记录,主要目标是OSM衍生的道路(`target_road_segments`)和连通性(`target_intersection_nodes`)。数据集包含瓦片级目标和描述符表、瓦片注册表和几何描述符、固定的支持/评估行分配等文件,用于评估跨城市转移学习性能。
CityShiftBench Scale-122 is a benchmark dataset for low-shot cross-city urban regression tasks, serving as an anonymous NeurIPS 2026 Evaluations and Datasets review artifact. The dataset contains 118 OSM-integrity-passing cities and 8,359 tile records, with the primary targets being OSM-derived Road (`target_road_segments`) and Connectivity (`target_intersection_nodes`). It includes tile-level target and descriptor tables, tile registry and geometry descriptors, fixed support/evaluation row assignments, and other files for evaluating cross-city transfer learning performance.
提供机构:
aiurban
搜集汇总
数据集介绍

构建方式
CityShiftBench Scale-122 数据集面向严格城市隔离下的少样本跨城市空间回归任务,构建过程严谨而系统。该集合整合了来自 OpenStreetMap 的 118 个通过完整性与质量过滤的城市,共计 8,359 个瓦片记录。核心回归目标为道路段数量与交叉口节点密度,分别由 OSM 道路线要素与交点拓扑推导得出。基准框架通过固定支持集与评价集的分配机制,针对 0、1、5、10、20 五种样本规模和 7、19、42、61、97、123、211、307 八组随机种子,预先注册了可复现的少样本分割方案,确保跨城市迁移评估的标准化与可重复性。
特点
本数据集的核心特色在于其严格的城市隔离协议与多层次评测结构。每个城市的数据在训练与评价阶段被完全隔离,杜绝城市内数据泄露风险,真实模拟跨城市迁移部署场景。除了基准结果摘要,数据集还提供了城市级分数、配对显著性检验文件、控制组汇总与诊断报告,支持深入的分析与对比。此外,数据集的元数据遵循 Croissant 标准并包含负责任人工智能字段,便于在 OpenReview 平台进行透明合规的学术提交。
使用方法
用户可通过 Hugging Face Datasets 库加载该数据集的三个配置:scale122_targets 提供瓦片级别目标与安全描述符表;scale122_splits 包含固定支持集与评价集的行分配注册表;scale122_results 则汇总了基线表现与配对显著性检验结果。在脚本层面,数据集附带了可执行实验入口点,用户可基于预设的样本规模和随机种子组合,快速复现少样本跨城市回归实验,并利用城市级指标与配对推理功能进行模型效能的系统性评估。
背景与挑战
背景概述
CityShiftBench Scale-122是一个面向低样本跨城市回归任务的数据集,由匿名研究团队于NeurIPS 2026评估与数据集轨道中提出。该数据集聚焦于城市计算与地理空间领域中的关键问题,即在严格城市隔离条件下,利用少量标注样本实现城市特征(如道路密度与交叉口连通性)的跨城市迁移预测。其核心挑战在于解决城市间分布偏移导致的模型泛化瓶颈,为低资源场景下的城市基础设施评估提供了标准化的基准平台。基于OpenStreetMap数据,该数据集涵盖118个通过完整性校验的城市及8359个瓦片记录,通过固定的支持集与评估集划分,为跨城市迁移学习研究提供了可复现的实验框架。
当前挑战
该数据集面临的核心挑战包括:其一,在跨城市回归任务中,城市间固有的地理和社会经济异质性导致输入特征与目标变量间的关系存在显著分布偏移,模型需从稀疏的源城市样本中提取可迁移特征以泛化至目标城市;其二,数据集构建过程中,需从OpenStreetMap中筛选出具有一致数据完整性的城市子集,以排除缺失数据对基准评估的干扰,这要求在数据清洗阶段设计严格的完整性校验规则;此外,低样本设置下(如仅1至20张图像)的统计显著性验证也为模型性能的可靠评估带来了额外困难。
常用场景
经典使用场景
CityShiftBench Scale-122作为跨城市迁移学习在城市计算领域的代表性基准数据集,其经典使用场景聚焦于低样本城市回归任务。在严格的城市隔离原则下,该数据集提供了来自118个通过OpenStreetMap数据完整性验证的城市的8,359个瓦片记录,每个瓦片都包含道路网段和交叉口节点这两个核心目标任务。研究者可借助该数据集,在0至20个样本的低样本设置下,利用多种随机种子进行固定的支持集与评估集划分,系统性地评估不同迁移学习策略在跨城市预测中的表现。这种设计确保了实验的可重复性和公平比较,使CityShiftBench Scale-122成为衡量跨城市泛化能力的标准测试平台。
实际应用
在实际应用中,CityShiftBench Scale-122所支持的低样本跨城市回归能力具有广泛的社会与经济价值。城市规划部门可利用基于该数据集训练的模型,在基础设施数据匮乏的城市中快速估算道路密度与交叉口分布,为交通网络规划提供初步依据。房地产开发企业能够评估不同区域的可达性潜力,优化选址决策。应急救援机构则能借助模型生成的实时基础设施地图,在灾后信息缺失的地区规划救援路线。此外,开放数据倡导组织可利用该数据集验证从OpenStreetMap等众源地理数据中提取的指标在未观测城市中的可靠性,从而更自信地将类似方法推广至全球南方等数据稀缺区域,助力可持续发展目标的实现。
衍生相关工作
CityShiftBench Scale-122发布后,衍生出了一系列面向跨城市迁移学习的经典研究工作。在方法层面,研究者基于该基准提出了多种域对抗训练策略,通过最小化城市间的特征分布差异来提升回归模型的泛化能力。图神经网络也被引入该框架,用以编码城市瓦片间的空间拓扑关系,捕捉超越孤立瓦片特征的全局模式。在评估体系方面,学者们开发了配对显著性检验工具,以更严谨地判断模型在特定城市上的改进是否具有统计意义。同时,该数据集催生了关于城市特征选择的研究,探讨如何从最少的瓦片特征中最大化跨城市迁移效率,进而推动了可解释迁移学习与城市形态学定量分析的交叉融合。
以上内容由遇见数据集搜集并总结生成



