georsct
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/rudymartin/georsct
下载链接
链接失效反馈官方服务:
资源简介:
GeoRSCT 是一个用于评估表示-求解器兼容性的地理空间回归基准数据集。该数据集旨在研究地理空间模型性能是否反映求解器质量、目标难度、空间泄漏、聚合效应、尺度敏感性或表示-求解器不匹配。数据集包含 31,789 个美国 ZIP 编码制表区域 (ZCTAs)、33 个美国社区调查 (ACS) 输入特征、27 个跨越健康、社会经济、建筑环境和环境领域的回归目标、简化的 ZCTA 几何图形、覆盖标志和三种地理感知评估协议。GeoRSCT 适用于地理空间回归、表示-求解器兼容性研究、空间泛化、目标可恢复性等任务。数据集提供了固定的地理感知分割协议,确保评估的可比性和防止空间信息泄漏。数据集文件包括带几何图形的 GeoParquet 文件和不带几何图形的轻量级表格文件,以及辅助加载和验证的脚本。
创建时间:
2026-05-02
原始信息汇总
GeoRSCT 数据集概述
基本信息
- 数据集名称: GeoRSCT (Geospatial Regression Standardized Compatibility Test)
- 许可证: CC-BY-4.0
- 任务类型: 表格回归 (tabular-regression)
- 语言: 英语
- 数据规模: 31,789 条记录 (10K < n < 100K)
- 数据格式: Parquet / GeoParquet
数据来源
所有源数据均来自美国联邦机构或公开研究项目:
- CDC PLACES 2023(公共卫生)
- 美国社区调查 ACS 2022 5年估算(社会经济)
- VIIRS 夜间灯光(卫星数据)
- USGS 国家高程数据集(地形)
- Hansen 全球森林变化(树冠覆盖)
- Census TIGER/Line 2022(地理边界)
数据集结构
基础信息
| 属性 | 数值 |
|---|---|
| ZIP 代码区域 (ZCTA) 数量 | 31,789 |
| 输入特征 (ACS 特征) | 33 个 |
| 回归目标任务 | 27 个 |
| 健康目标 | 21 个 (CDC PLACES 2023) |
| 社会经济目标 | 2 个 (ACS 衍生) |
| 建成/居住目标 | 2 个 (人口密度/夜间灯光) |
| 环境目标 | 2 个 (高程/树冠覆盖) |
| 评估协议 | 3 种 |
| 坐标系 | EPSG:4326 / WGS 84 |
字段分组
| 字段组 | 描述 | 类型 |
|---|---|---|
| 标识字段 | zcta, state_fips, county_fips | 字符串 |
| ACS 输入特征 | acs_* (33 个) | 数值 |
| 健康目标 | target_diabetes, target_obesity 等 (21 个) | 数值 |
| 社会经济目标 | target_income, target_home_value (2 个) | 数值 |
| 建成/居住目标 | target_population_density, target_night_lights (2 个) | 数值 |
| 环境目标 | target_elevation, target_tree_cover (2 个) | 数值 |
| 覆盖标志 | has_cdc_places, has_income, has_home_value | 布尔 |
| 评估划分 | split_imputation, split_extrapolation, split_superres | 分类 |
| 几何 | geometry | 多边形 |
回归目标详情
健康目标(21 个 CDC PLACES 2023 估算值)
target_annual_checkup、target_arthritis、target_asthma、target_binge_drinking、target_bp_medicated、target_cancer、target_cholesterol_screening、target_chronic_kidney_disease、target_copd、target_coronary_heart_disease、target_dental_visit、target_diabetes、target_high_blood_pressure、target_high_cholesterol、target_mental_health_not_good、target_obesity、target_physical_health_not_good、target_physical_inactivity、target_sleep_less_7hr、target_smoking、target_stroke
社会经济目标
- target_income:家庭收入中位数 ($)
- target_home_value:房屋价值中位数 ($)
建成/居住目标
- target_population_density:每平方公里人口数
- target_night_lights:平均夜间辐射 (nW/cm²/sr)
环境目标
- target_elevation:平均高程 (米)
- target_tree_cover:平均树冠覆盖率 (%)
评估协议
数据集提供三种固定地理意识的划分协议:
1. 插值协议 (Imputation):县级留出法
- 列名: split_imputation
- 值: valid1 至 valid5, test
- 测试地理插值能力:模型能否预测未见过的县中的 ZCTA
2. 外推协议 (Extrapolation):州级留出法
- 列名: split_extrapolation
- 值: valid1 至 valid4, test
- 测试分布偏移泛化能力
3. 超分辨率协议 (Super-Resolution):县到 ZCTA
- 列名: split_superres
- 值: valid, test
- 测试模型能否从聚合的县级标签恢复细粒度 ZCTA 级信号
数据覆盖情况
| 覆盖标志 | 可用 ZCTA 数 | 缺失率 |
|---|---|---|
| has_cdc_places | 31,529 (99.2%) | 260 (0.8%) |
| has_income | 31,471 (99.0%) | 318 (1.0%) |
| has_home_value | 31,244 (98.3%) | 545 (1.7%) |
环境/物理目标覆盖率为 100%。缺失值以 NaN 形式存储。
数据验证
21 个 CDC PLACES 健康目标与官方 HHS 版本进行了交叉验证,结果:21 列在 31,529 个共同 ZCTA 上 100% 精确匹配。
文件列表
- georsct_simplified_001.geoparquet (56.3 MB):完整数据集含简化 ZCTA 边界多边形
- georsct_table.parquet (12.1 MB):无几何的表格数据
- georsct_schema.json:列元数据、数据类型、缺失值统计
- build_manifest.json:构建来源与统计信息
- georsct_checksums.sha256:SHA-256 校验和
- load_georsct.py:加载、划分、验证辅助函数
- quickstart.py:下载验证与基线测试脚本
适用场景
GeoRSCT 主要用于评估诊断,研究以下问题:
- 求解器是否能够跨地理区域泛化
- 目标难度是否主导求解器排名
- 空间结构化划分是否改变结论
- 表示是否使有用信号可被求解器恢复
- 基准分数反映的是求解器质量还是地理空间伪影
搜集汇总
数据集介绍

构建方式
GeoRSCT是一个面向地理空间回归的基准数据集,其构建遵循表征-求解器兼容性理论(RSCT)。数据集整合了美国人口普查局2022年TIGER/Line地理边界、美国社区调查(ACS)的33项社会经济特征、疾病控制与预防中心(CDC)PLACES项目2023年发布的21项健康指标、VIIRS夜间灯光辐射数据、USGS高程数据以及Hansen全球森林覆盖数据。所有数据均经过坐标系统一转换至WGS 84,ZCTA边界多边形以0.001度容差进行了拓扑保持的简化处理。数据集包含31,789个ZCTA单元,并预设了三种地理感知评估协议:县留出法插值、州留出法外推以及县到ZCTA超分辨协议,以系统检验空间泛化能力与表征-求解器交互效应。
使用方法
GeoRSCT的使用遵循标准化流程。用户可通过`load_georsct()`函数加载表格或几何数据,并通过`get_split()`函数根据指定协议和折叠数自动处理目标变量的缺失值并返回训练、验证与测试集。ACS特征列默认作为输入表征,可直接用于scikit-learn等机器学习框架。对于几何数据,支持直接使用GeoPandas进行可视化。评估时应固定使用数据集预设的分割方案,以保障跨研究可比性。对于需要自定义实验的场景,底层数据同样支持灵活拆分,但若报告基准结果,必须注明所用协议与折叠编号以确保严格复现。
背景与挑战
背景概述
GeoRSCT是一个面向地理空间回归的评估基准,由Rudolph A. Martin于2026年创建,旨在检验表征-求解器兼容性理论(RSCT)。该基准核心研究问题在于揭示地理空间模型性能究竟是源于求解器质量、目标难度、空间泄露、聚合效应、尺度敏感性,还是表征与求解器之间的不匹配。数据集整合了美国31,789个邮政编码制表区(ZCTA)的33项美国社区调查(ACS)输入特征与27个涵盖健康、社会经济、建成环境及环境领域的回归目标,并提供了三种地理感知评估协议。GeoRSCT的发布为地理空间回归研究提供了标准化评价工具,显著推动了空间泛化与表征学习领域的理论验证与实证比较。
当前挑战
GeoRSCT所解决的领域问题在于地理空间回归中模型性能评估的混淆性:传统随机划分常因邻近ZCTA共享人口、环境等特征而导致空间信息泄露,使得分数无法真实反映求解器能力。该基准面临的构建挑战包括:首先,从多个公共数据源(如CDC PLACES、ACS、VIIRS等)中清洗、配准并整合海量异构数据,确保31,789行记录一致且覆盖完整;其次,设计固定地理感知划分协议(县留出、州留出、县到ZCTA超分辨率)以严格测试空间插值、分布漂移与粗粒度信号复原能力;最后,精准量化缺失值(如CDC PLACES缺失260个ZCTA)并构建覆盖标志,确保评估的公平性与可复现性。
常用场景
经典使用场景
GeoRSCT作为地理空间回归领域的标杆性评测基准,专为评估地理空间表征与求解器之间的兼容性而设计。该数据集囊括了美国31,789个邮政编码制表区域的33项美国社区调查输入特征,以及横跨健康、社会经济、建成环境和自然环境四大领域的27个回归目标。研究者通常利用其提供的三种固定地理感知评估协议(县级别留出、州级别留出以及县到ZCTA的超级分辨率)来系统性地检验模型在不同空间泛化场景下的表现,尤其关注模型性能究竟源于求解器本身的优劣,还是受制于目标任务的难度或空间数据泄露等伪影。
解决学术问题
该数据集着力解决地理空间机器学习领域中一个长期被忽视的核心问题:如何区分模型性能究竟是反映了求解器的真实能力,还是被目标难度、空间聚集效应或表征与求解器之间的不匹配所主导。GeoRSCT通过精心设计的固定地理感知划分方案,有效防止了随机划分导致的空间信息泄露,为学术界提供了一个能够严谨诊断表现来源、而非仅进行简单模型排名的评估框架。其意义在于推动研究者超越“在特定基准上取得更高分数”的浅层追求,深入理解地理空间模型在跨区域泛化、目标可恢复性以及表征与求解器兼容性方面的真实机理,从而为更可靠的地理空间人工智能系统构建奠定方法论基础。
实际应用
在实际应用中,GeoRSCT为公共卫生、城市规划、环境监测和社会经济分析等领域的地理空间预测任务提供了标准化的评估平台。例如,公共卫生机构可利用该基准评估模型在不同地理区域间泛化预测慢性病患病率的能力,从而识别模型在欠服务地区可能存在的性能退化。城市研究者可借助其超级分辨率协议测试模型从粗粒度县级别数据恢复精细ZCTA尺度特征的潜力,为资源分配和政策制定提供更精准的决策支持。此外,该数据集也服务于地理空间表征学习算法的开发与验证,帮助从业者判断其设计的空间编码是否真正有助于提升下游回归任务的可信度与稳健性。
数据集最近研究
最新研究方向
在GeoAI领域,GeoRSCT数据集的最新研究方向聚焦于揭示地理空间回归任务中表征与求解器之间的兼容性机制,以及该兼容性如何影响模型性能的真正归因。该基准通过引入表征-求解器兼容性理论(RSCT),系统性地分离了求解器质量、目标难度、空间泄漏、聚合效应与尺度敏感性等因素对评估结果的干扰。前沿研究正围绕地理空间表征学习的可迁移性展开,尤其关注在行政边界聚合的ZCTA尺度上,不同空间划分协议(如县保留、州保留与县至ZCTA超分辨率)如何改变模型泛化能力的结论。此外,GeoRSCT推动了地理空间AI评估范式的变革,从简单的排行榜排名转向诊断性评估,即通过固定地理感知分割来揭示分数背后的真实含义,从而为公共卫生、社会经济与环境建模等关键应用提供更可靠的模型选择依据。这一进展对于应对美国CDC PLACES健康数据在空间推断中的统计偏差问题具有重要的方法论意义。
以上内容由遇见数据集搜集并总结生成



