CommunityOne/one-jurisdictions-townships
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/CommunityOne/one-jurisdictions-townships
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: USPS
dtype: large_string
- name: GEOID
dtype: large_string
- name: ANSICODE
dtype: large_string
- name: NAME
dtype: large_string
- name: FUNCSTAT
dtype: large_string
- name: ALAND
dtype: large_string
- name: AWATER
dtype: large_string
- name: ALAND_SQMI
dtype: large_string
- name: AWATER_SQMI
dtype: large_string
- name: INTPTLAT
dtype: large_string
- name: 'INTPTLONG '
dtype: large_string
- name: data_source
dtype: large_string
- name: download_date
dtype: large_string
- name: jurisdiction_type
dtype: large_string
- name: state
dtype: large_string
splits:
- name: train
num_bytes: 9485859
num_examples: 36421
download_size: 2438886
dataset_size: 9485859
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
CommunityOne
搜集汇总
数据集介绍

构建方式
该数据集聚焦于美国单一行政管辖区的乡镇级地理单元,基于权威的政府地理数据源构建。数据集中每条记录对应一个乡镇实体,并通过USPS(邮政服务代码)、GEOID(地理标识符)及ANSICODE(美国国家标准学会代码)进行唯一标识。字段设计涵盖了行政区划名称(NAME)、功能状态(FUNCSTAT)、陆地与水域面积(ALAND/AWATER,分别以平方米和平方英里计)、地理中心经纬度(INTPTLAT/INTPTLONG)等核心属性。此外,数据集明确了数据来源(data_source)与下载日期(download_date),以确保可追溯性,并附加了管辖类型(jurisdiction_type)及所属州别(state)信息,从而构建了一个结构严谨、元数据完备的乡镇行政区划知识库。
特点
本数据集的核心特色在于其针对美国乡镇级行政单元的精细化覆盖,共收录36,421条记录,数据量约9.5MB,体现了中等规模但高度聚焦的区域性特征。所有属性字段均采用字符串(large_string)格式存储,这一设计简化了数据类型转换需求,便于直接应用于文本分析与地理信息系统(GIS)预处理。尤为突出的是,数据集明确区分了陆地与水域面积的双重度量单位(公制与英制),并提供了精确的地理坐标,为空间统计、区域比较及可视化呈现提供了坚实的数据底座。同时,统一的数据来源与下载时间标记,增强了数据的权威性与时效性,使其成为研究美国基层行政区划演变与空间结构的可靠工具。
使用方法
使用本数据集时,用户可直接加载默认配置的'train'分割部分,该部分以Parquet格式存储于'data/train-*'路径下。数据集适用于多种应用场景:在空间分析中,可结合INTPTLAT与INTPTLONG字段生成乡镇级地理分布图或开展邻近性分析;在区域研究中,可利用ALAND与AWATER字段计算土地利用比例,或通过FUNCSTAT字段筛选不同功能状态的乡镇。鉴于所有字段均为字符串格式,建议在数值分析前对面积和坐标字段进行类型转换。此外,USPS与GEOID可作为外键,与其他美国行政区划数据集(如县、州级数据)进行关联,从而扩展分析维度。该数据集在Python的datasets库中可一键加载,推荐数据科学工作者与地理信息研究者将其整合至自动化管线中,实现高效调用与批量处理。
背景与挑战
背景概述
该数据集名为“one-jurisdictions-townships”,聚焦于美国行政区划中基层行政单位(乡镇与镇区)的空间与属性信息。这类数据在区域治理、公共服务资源配置及地理解析中具有关键作用,尤其为小尺度空间分析与统计建模提供了基础性支撑。数据集由单一数据源整合而成,包含USPS邮编、地理标识码、土地利用面积、质心坐标及行政类型等十六项字段,共计36421条记录,覆盖全美各州不同法域类型的基层单元。其创建旨在填补标准化、结构化乡镇级行政数据集的缺失,为城乡规划、环境监测、人口迁移与选举地理学等领域的研究者提供可直接使用的结构化基准数据,促进跨州比较分析与区域政策评估的精细化发展。
当前挑战
该数据集所应对的核心领域挑战在于,美国乡镇级行政单元因各州法律体系差异而呈现高度异质性,造成统一空间分析与统计建模的困难。具体而言,不同州赋予乡镇的功能地位(FUNCSTAT)与管辖类型(jurisdiction_type)千差万别,例如新英格兰地区乡镇承担广泛市政职能,而中西部部分州仅作为统计分区,这使得跨州横向对比研究极易因定义混杂而产生偏差。在数据构建过程中,挑战集中于多源异构官方数据的清洗与归并:原始数据来源于不同州级或联邦机构,其坐标系、时间戳与字段命名规则不尽相同,需经过严格的地理编码与属性对齐。此外,数据集中水域与陆地面积的精确换算(如平方英里字段的生成)依赖于高精度空间计算,对小数精度与单位一致性提出极高要求,任何缩放或舍入错误均可能影响后续面积加权统计分析的可信度。
常用场景
经典使用场景
在空间地理与行政区划研究中,该数据集犹如一幅精细的行政疆域织锦,专为那些需要深入剖析美国单一司法管辖区(如乡镇层级)空间特征的学术探索而设计。其经典使用场景聚焦于利用GEOID、ANSICODE等唯一标识符,精确映射并分析各城镇(Townships)的地理边界、陆地与水域面积(ALAND、AWATER),以及其经纬度中心点(INTPTLAT、INTPTLONG)。研究者可借此开展精细尺度的行政区划变迁追踪、城乡空间结构比较,或结合人口、经济等外部数据,进行空间计量与地理加权回归分析,探究城镇层面发展模式的异质性。
实际应用
在实际应用层面,该数据集为多层级政府决策与空间规划提供了不可或缺的基底数据。城市规划者能以此精准界定公共服务设施(如消防、学区)的服务半径,优化资源配置;环境管理者则可结合ALAND与AWATER字段,评估乡镇级洪水风险或湿地保护优先级。此外,在商业选址与市场分析领域,企业可依托此数据集对目标市场的行政边界与地理属性进行画像,识别具有独特空间特征的潜在扩张区域。选举地理学研究亦能利用该数据,将投票数据与精确的乡镇地理单元匹配,剖析政治行为的地理分布规律。
衍生相关工作
自该数据集发布以来,一系列富有洞见的衍生研究工作相继涌现。其中,部分学者基于其GEOID字段,成功链接了美国社区调查(ACS)的经济社会数据,构建了乡镇级的社会脆弱性指数,揭示了自然灾害风险的空间差异。另有研究者融合该数据集中的水域面积信息(AWATER)与土地利用模型,量化评估了城市化进程对乡村乡镇蓝绿空间(Blue-Green Space)的侵蚀效应。此外,在计算社会科学领域,该数据集还被用作构建空间权重矩阵的基础,用以检测乡镇间政治投票行为的空间溢出与竞次效应,为理解美国基层政治生态的微观动态贡献了关键证据。
以上内容由遇见数据集搜集并总结生成



