five

region-id

收藏
github2026-01-04 更新2026-01-05 收录
下载链接:
https://github.com/lokabisa-oss/region-id
下载链接
链接失效反馈
官方服务:
资源简介:
印度尼西亚行政区划的参考数据集,包括省、县/市、区和村各级行政单位的数据,提供规范化的CSV格式文件,并通过GitHub Releases进行版本控制发布。

Reference dataset for administrative divisions of Indonesia, which covers data across all administrative tiers: provinces, regencies/cities, districts and villages. Standardized CSV format files are provided, and the dataset is released under version control via GitHub Releases.
创建时间:
2025-12-26
原始信息汇总

region-id 数据集概述

数据集基本信息

  • 数据集名称:region-id
  • 核心描述:印度尼西亚行政区划的已验证参考数据集。
  • 数据来源:基于官方来源生成。
  • 发布方式:数据集文件通过 GitHub Releases 作为版本化工件发布,仓库本身不直接存储数据文件。

数据覆盖范围

数据集遵循印度尼西亚官方行政区划层级:

  1. 县/市
  2. 村 同时提供了一个非规范化的数据集以供便捷使用。

可用数据集文件

所有数据集均以 CSV 文件形式在 GitHub Releases 中发布。

数据集 文件名 描述 记录数
provinces.csv 印度尼西亚的省份 38
县/市 regencies.csv 县和市 514
districts.csv 区级行政单位 7,285
villages.csv 村和城市社区 83,762
非规范化数据 regions_id.csv 从省到村的扁平化参考数据 83,762

数据格式与完整性

  • 主要格式:CSV
  • 编码:UTF-8
  • 模式schema/ 目录中记录了稳定的模式,其版本独立于数据集发布。
  • 完整性保证:所有发布的数据集均经过严格验证,包括各级行政代码的唯一性、有效的跨层级外键关系、一对一层次结构一致性,且非规范化数据仅从已验证的规范化数据集生成。若验证失败,则不会发布数据集。

数据获取方式

  • 最新版本下载地址:https://github.com/lokabisa-oss/region-id/releases/latest
  • 电子表格预览:https://docs.google.com/spreadsheets/d/1fWEIztD397_9uG4ZvAuv9IX43ek9gNvlRuykpwza9_I(此为只读预览,权威版本化数据集通过 GitHub Releases 发布)。

本地数据复现

仓库包含完整的流水线,可从源文档复现数据集,主要用于审计、验证、研究或改进流水线。大多数用户应从 GitHub Releases 下载现成数据集。

  • 源文档:数据集从官方 Kepmendagri 行政参考文档 生成。
  • 源文档获取
    • 推荐用于复现的归档版本:https://github.com/lokabisa-oss/id-documents/releases/download/kepmendagri-2025/kepmendagri-2025.pdf
    • 原始来源参考链接记录于 metadata/sources.md
  • 复现步骤概要:克隆仓库、安装依赖(Python 3.10+、pdfplumber 等)、运行解析流水线。输出文件为 ./datasets/ 目录下的 CSV 文件。

仓库目的

此仓库作为:

  • 数据集生成器
  • 模式权威
  • 验证流水线
  • 印度尼西亚区域标识符的参考实现
搜集汇总
数据集介绍
main_image_url
构建方式
在行政地理信息领域,准确且结构化的区域数据对于政策分析、商业规划及社会研究至关重要。region-id数据集通过解析印度尼西亚内政部发布的官方Kepmendagri PDF文档构建而成,采用自动化管道进行数据提取与标准化处理。该流程首先利用pdfplumber等工具解析源文件,随后严格遵循印度尼西亚四级行政层级(省、县/市、区、村)对数据进行归一化,并通过外键关系验证与唯一性检查确保数据完整性,最终生成版本化的CSV文件集。
使用方法
对于需要印度尼西亚行政区域信息的用户而言,可直接从GitHub Releases下载最新的CSV文件,这些文件采用UTF-8编码并配有稳定模式定义,能够轻松集成到数据分析、地理信息系统或应用程序中。若需审计或验证数据来源,用户可克隆仓库并运行本地生成管道,依赖Python环境重现数据集构建过程。数据集适用于人口统计、区域规划、市场分析等多种场景,其严谨的结构设计为跨层级数据关联提供了坚实基础。
背景与挑战
背景概述
在数字治理与地理信息系统领域,准确、结构化的行政区划数据是支撑公共服务、商业分析与学术研究的基础设施。region-id数据集由印尼开源组织Lokabisa于近年创建,旨在提供一套经过严格验证的印度尼西亚行政区划参考数据集。该数据集依据印尼官方发布的《Kepmendagri》行政文件,系统覆盖了省、县/市、区、村四级行政层级,并提供了规范化与反规范化的数据版本。其核心研究问题在于解决印尼行政区划数据在公开获取、版本一致性及机器可读性方面的长期缺口,通过自动化解析与验证流程,确保了数据的完整性与权威性,为印尼本土及国际开发者、研究人员提供了可靠的数据基准,显著提升了相关应用开发的效率与准确性。
当前挑战
region-id数据集致力于解决印尼行政区划信息在数字化应用中的核心挑战,即如何从非结构化的官方PDF文档中,自动化提取并构建出高度一致、关系完整的结构化数据,以支持地理编码、数据分析及政府服务集成等任务。在构建过程中,项目面临多重技术挑战:其一,源文档为PDF格式,解析过程需精准处理复杂的表格布局与文本编码,确保行政代码与名称的提取无误;其二,印尼行政区划层级复杂且存在周期性更新,维护数据在不同版本间的关系一致性与历史追溯性要求严谨的验证逻辑;其三,确保生成的数据集在省、县、区、村各级间满足外键约束与唯一性要求,需设计鲁棒的校验管道,任何验证失败都将阻止版本发布,这对数据管线的可靠性提出了极高要求。
常用场景
经典使用场景
在区域地理与行政管理领域,region-id数据集为研究者提供了印度尼西亚行政区划的标准化参考。该数据集以层次化结构覆盖了从省份到村庄的完整行政单元,其经典应用场景在于支持地理信息系统(GIS)中的空间数据整合与分析。通过提供精确且经过验证的行政代码与名称对应关系,它使得跨区域的社会经济统计、人口分布研究以及资源分配模拟成为可能,为宏观政策评估与区域发展规划奠定了数据基础。
解决学术问题
该数据集有效解决了区域研究中行政边界数据不一致、更新滞后以及来源权威性不足等常见学术问题。通过从官方文件(如Kepmendagri PDF)中提取并严格验证数据,它确保了行政代码的唯一性与层级关系的完整性,从而消除了跨研究数据比对时的歧义。这对于进行长期纵向研究、跨区域比较分析以及构建统一的空间数据库具有重要意义,提升了研究成果的可重复性与可信度。
实际应用
在实际应用中,region-id数据集广泛服务于政府管理、商业智能与公共服务领域。政府部门可利用该数据集优化人口普查、选举分区与公共设施规划;企业则能基于准确的行政区划进行市场分析、物流网络设计与分支机构部署。此外,在紧急响应与公共卫生管理中,如疫情追踪或灾害救援,快速定位到具体村庄层级的能力显著提升了资源调配的精确性与时效性。
数据集最近研究
最新研究方向
在区域地理信息与公共管理领域,印尼行政区划数据集region-id的推出,为数字治理与空间数据分析提供了精准的参考基准。当前研究前沿聚焦于利用该数据集支撑智慧城市与区域发展政策的模拟评估,通过整合人口、经济等多源数据,构建动态决策支持系统。伴随印尼数字转型加速,该数据集在选举管理、灾害应急响应及公共服务优化等热点事件中展现出关键价值,其标准化与可复现特性不仅提升了行政数据的透明度和可靠性,也为跨学科研究奠定了坚实基础,推动着东南亚区域信息基础设施的协同发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作