rudymartin/georsct

Name: rudymartin/georsct
Creator: rudymartin
Published: 2026-05-02 14:30:30
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/rudymartin/georsct

下载链接

链接失效反馈

官方服务：

资源简介：

GeoRSCT是一个地理空间回归基准数据集，用于评估表示-求解器兼容性。该数据集包含31,789个美国ZIP代码制表区域（ZCTAs），33个美国社区调查（ACS）输入特征，27个回归目标（涵盖健康、社会经济、建筑环境和环境领域），简化的ZCTA几何形状，覆盖标志和三种地理感知评估协议。数据集旨在帮助研究者评估地理空间模型性能是否反映了求解器质量、目标难度、空间泄漏、聚合效应、尺度敏感性或表示-求解器不匹配。

GeoRSCT is a geospatial regression benchmark for evaluating representation–solver compatibility. The dataset includes 31,789 U.S. ZIP Code Tabulation Areas (ZCTAs), 33 American Community Survey (ACS) input features, 27 regression targets spanning health, socioeconomic, built-environment, and environmental domains, simplified ZCTA geometries, coverage flags, and three geography-aware evaluation protocols. The benchmark is designed to help determine whether observed performance reflects solver quality, target difficulty, spatial leakage, aggregation effects, scale sensitivity, or representation–solver incompatibility.

提供机构：

rudymartin

搜集汇总

数据集介绍

构建方式

GeoRSCT数据集的构建源于对地理空间回归中表征与求解器兼容性问题的深入探究。其数据源囊括美国社区调查（ACS）、CDC PLACES、VIIRS夜间灯光、USGS高程、Hansen森林覆盖及人口普查TIGER/Line边界等多类公共领域或开放许可的地理与健康数据。研究者首先将31,789个美国邮政编码制表区（ZCTA）作为基本观测单元，提取33项ACS社会经济特征作为输入，并整合来自不同来源的27个回归目标，涵盖健康、社会经济、建成环境与自然环境四大领域。随后，数据集引入了三种固定的地理感知评估协议——县级留出法、州级留出法及县至ZCTA超分辨率法，并生成对应的划分列，以系统性地检验空间泛化能力、目标难度与表征-求解器匹配效应。最终，所有数据被整理为轻量级表格格式（Parquet）及含简化几何信息的GeoParquet格式，并附带覆盖标志与元数据，形成一个可直接用于评估诊断而非仅用于模型排名的标准化基准。

特点

GeoRSCT的核心特色在于其对地理空间回归性能的细致诊断能力，而非简单的模型排序。该数据集拥有31,789个ZCTA样本，涉及33个ACS输入特征与27个差异化的回归目标，其中包含21项CDC PLACES健康估计值、2项社会经济指标、2项建成环境指标以及2项自然环境指标，为多任务评估提供了丰富素材。尤为突出的是，它预设了三种固定且具有地理感知的评估协议，分别模拟空间插值、分布漂移与粗粒度至细粒度信号恢复三种典型场景，有效规避了随机划分导致的空间信息泄露问题。此外，数据集提供了详尽的覆盖标志以标识目标缺失情况，并附带了完整的构建清单与校验报告，确保所有CDC健康目标值均与官方版本完全一致。这一设计使得研究者能够区分模型得分究竟是源于求解器质量、目标本身难度，还是地理伪影或表征与求解器的不兼容性。

使用方法

使用GeoRSCT数据集进行实验时，推荐用户首先安装pandas、pyarrow与scikit-learn等基础依赖，并运行附带的quickstart.py脚本以验证文件完整性及基准可用性。研究者可通过load_georsct.py中的辅助函数轻松加载表格型或含几何信息的Parquet文件，并利用get_split函数结合指定的协议（如'imputation'）与目标列（如'target_diabetes'）自动获取训练、验证与测试划分。该方法会自动剔除对应目标缺失的样本，无需手动预处理整个数据集。对于无需几何信息的轻量级分析，可直接读取georsct_table.parquet，并依据split_imputation、split_extrapolation或split_superres列进行手动划分。此外，数据集也支持自定义划分，但在报告GeoRSCT基准结果时，应使用官方提供的固定协议以确保结果的可复现与可比性。最终，用户可选用ACS特征作为输入，对任意27个目标进行回归建模，并借助覆盖标志过滤合适的评估子集。

背景与挑战

背景概述

GeoRSCT（Geospatial Regression Solver Compatibility Test）是由Rudolph A. Martin于2026年提出的地理空间回归基准数据集，依托于“表征-求解器兼容性理论”（RSCT），旨在系统性地解耦地理空间模型性能中的潜在混淆因素。该数据集整合了来自美国人口普查局、疾病控制与预防中心（CDC）PLACES项目、NASA/NOAA等多源公共数据，覆盖31,789个ZCTA区域、33个ACS输入特征及27个回归目标，涵盖健康、社会经济、建成环境和自然环境四大领域。作为首个将RSCT理论应用于地理空间回归的标准化评估基准，GeoRSCT通过固定的地理感知划分协议（县留出法、州留出法和超分辨率法），为研究空间泛化、目标难度差异及表征与求解器匹配问题提供了关键验证框架，显著推动了地理空间人工智能领域从简单排行榜评估向诊断性评估范式的转变。

当前挑战

GeoRSCT所应对的核心领域挑战在于，传统地理空间回归模型评估常将性能归因于求解器质量，却忽视了空间泄露、聚合效应、尺度敏感性以及表征-求解器兼容性等系统性偏差。该基准通过设计三种地理感知协议（县留出插值、州留出外推、县到ZCTA超分辨率）来区分这些因素，其中超分辨率协议尤其针对粗粒度标签解聚为细粒度预测的难题。在构建过程中，数据集面临跨源数据对齐的挑战，包括CDC PLACES中260个ZCTA的缺失值处理、ACS中六个中位数特征的少数缺失，以及从TIGER/Line边界到简化几何的拓扑保真度权衡。此外，确保27个回归目标的100%数据完整性验证——如对21个健康目标与HHS官方仓库的精确交叉校验——要求严格的工程化流程，以避免下游分析中的偏差传播。

常用场景

经典使用场景

GeoRSCT数据集专为地理空间回归任务中的表征-求解器兼容性评估而设计，其核心使用场景在于系统性地诊断模型性能的来源。研究者可利用该数据集，在固定的地理感知划分协议下，探究模型在空间插值（郡级留出）、空间外推（州级留出）以及超分辨率（郡级到ZCTA级）三种泛化场景中的表现。通过对比不同求解器在27个横跨健康、社会经济、建成环境和自然环境领域的回归目标上的性能，该数据集帮助厘清观察到的分数究竟反映了求解器的内在质量，还是受制于目标本身的难度、空间数据泄露或聚合效应，从而实现超越简单排行榜排序的深度评估。

衍生相关工作

GeoRSCT的提出直接衍生于表征-求解器兼容性理论，该理论由Rudolph A. Martin在其预印本中系统阐述。作为该理论的实证基准，GeoRSCT与多项基于美国地理和公共卫生数据源的资源紧密关联，包括CDC PLACES数据集的ZCTA版本以及Hugging Face上的HHS官方PLACES归档。其独特之处在于不仅封装了数据清洗与连接流程，更严格设定了三种地理感知的评估协议，为后续研究提供了可复现的对比标准。该基准推动了关于空间泛化、目标可恢复性以及表征-求解器匹配度的系列实验设计，并预期会催生更多针对地理空间编码与求解器相互依赖性的研究工作。

数据集最近研究