five

philippine-datasets

收藏
github2025-09-23 更新2025-09-26 收录
下载链接:
https://github.com/wewillcraft/philippine-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
来自菲律宾政府机构的经过清理和结构化的数据集集合。

A curated and structured collection of datasets sourced from Philippine government agencies.
创建时间:
2025-09-04
原始信息汇总

菲律宾数据集概述

数据集基本信息

  • 名称:philippine-datasets
  • 描述:来自菲律宾政府机构的经过清理和结构化的数据集集合
  • API地址:https://philippine-datasets-api.nowcraft.ing

数据内容

菲律宾标准地理代码(PSGC)数据

  • 来源:菲律宾统计局(PSA)
  • 数据类型:行政区划数据
  • 层级结构
    • 区域(Region)
    • 省份(Province)
    • 城市/直辖市(City/Municipality)
    • 巴朗盖(Barangay)
    • 次直辖市(SubMunicipality)

参议院法案数据

  • 来源:菲律宾参议院网站
  • 数据类型:立法数据
  • 覆盖范围:第13-20届国会法案
  • 法案类型:参议院法案(SBN)、众议院法案(HBN)

数据格式与输出

PSGC数据格式

  • JSON格式(psgc_data.json)
  • CSV格式(psgc_data.csv)
  • JSONL格式(psgc_data.jsonl)

参议院法案数据格式

  • TOML格式(按法案编号存储)
  • YAML索引文件(index.yml)
  • JSON元数据缓存

数据库架构

Neo4j图数据库结构

  • 节点类型:区域、省份、城市/直辖市、巴朗盖、次直辖市
  • 关系类型:HAS_PROVINCE、HAS_CITY_MUNICIPALITY、HAS_BARANGAY、HAS_SUBMUNICIPALITY

实体属性

  • PSGC代码(标准地理代码)
  • 名称
  • 对应代码
  • 地理层级
  • 2020年人口数据
  • 区域代码、省份代码、直辖市代码、巴朗盖代码组件

API端点

列表端点

  • /api/regions - 所有区域
  • /api/provinces - 所有省份(含区域信息)
  • /api/cities - 所有城市(HUC、ICC、CC)
  • /api/municipalities - 所有直辖市
  • /api/localities - 所有城市和直辖市
  • /api/barangays - 所有巴朗盖(分页)

详情端点

  • /api/regions/:psgc_code - 区域详情(含省份)
  • /api/provinces/:psgc_code - 省份详情(含城市/直辖市)
  • /api/cities/:psgc_code - 城市/直辖市详情(含巴朗盖)
  • /api/barangays/:psgc_code - 巴朗盖详情(完整层级)

实用端点

  • /api/search - 按名称搜索位置
  • /api/hierarchy/:psgc_code - 获取任何PSGC代码的完整层级路径
  • /api/ping - 健康检查

数据来源

  • 菲律宾统计局(PSA):菲律宾标准地理代码
  • 菲律宾邮政:邮政编码
  • 信息自由:政府数据
  • 菲律宾参议院:立法法案和决议

许可证

  • 类型:CC0 1.0 Universal公共领域奉献
  • 权限:可复制、修改、分发和执行作品,包括商业用途,无需请求许可
  • 要求:无版权、无保留权利、无需署名
搜集汇总
数据集介绍
main_image_url
构建方式
菲律宾数据集通过系统化整合政府公开数据构建而成,涵盖菲律宾统计局的地理编码标准、邮政系统信息及立法机构法案数据。数据采集采用自动化脚本与人工校验相结合的方式,其中地理数据通过Python解析器处理原始PSGC文件,生成结构化JSON和CSV格式;立法数据则利用Selenium框架爬取参议院网站,按国会会期分类存储为TOML文件。所有数据集均经过清洗和标准化处理,确保编码一致性和层级关系的完整性。
特点
该数据集以图数据库为核心架构,采用Neo4j存储多层次行政区域关系,实现从大区到省、市、镇、村庄的五级联动查询。数据覆盖菲律宾全境行政划分,包含人口统计、城乡分类、收入等级等丰富属性字段。立法数据模块提供完整的法案元数据追踪,支持按会期、法案类型和状态进行多维检索。API接口采用RESTful设计,支持分页查询、条件筛选和全文搜索功能,满足不同粒度的数据调用需求。
使用方法
用户可通过Deno运行时启动本地API服务器,连接配置好的Neo4j数据库实例。基础使用包括调用区域列表接口获取行政层级数据,或通过搜索端点实现关键词定位。高级应用可结合图数据库的Cypher查询语言,进行跨层级关系分析或路径追溯。立法研究模块需运行Python爬虫脚本动态更新法案库,配合元数据缓存机制实现增量采集。所有数据接口均提供OpenAPI规范文档,支持自动化测试与第三方系统集成。
背景与挑战
背景概述
在开放数据运动推动政府透明化的全球背景下,菲律宾数据集项目应运而生,旨在系统化整合菲律宾政府机构的公共数据资源。该项目由Nowcraft技术团队主导开发,核心使命在于构建标准化的地理编码与立法数据基础设施,通过解析菲律宾统计局(PSA)的PSGC地理编码体系和参议院立法档案,为政策分析、社会科学研究及公共服务应用提供结构化数据支持。其创新的图数据库架构实现了行政层级关系的可视化映射,显著提升了区域治理数据的可访问性与互操作性。
当前挑战
该项目需攻克多源异构政府数据的融合难题,包括PSGC地理编码系统中动态更新的行政区划变更、立法数据采集面临的网络爬虫稳定性与反爬机制规避问题。在技术实现层面,构建涵盖区域、省份、城市、基层行政单元的树状图数据库时,需精确处理国家首都区(NCR)无省份层级的特殊拓扑关系,同时确保海量基层数据(如超过4万条 barangay 记录)的批量导入效率与查询性能优化。数据质量控制的挑战主要体现在原始政府文档的非结构化转换过程中,需通过自动化校验机制保障编码一致性与人口统计数据的完整性。
常用场景
经典使用场景
在菲律宾地理信息研究领域,该数据集通过标准化的PSGC编码体系为行政区域划分研究提供了结构化数据支撑。研究人员能够利用其层次化地理编码数据,开展区域人口分布模式分析、城乡发展差异比较等经典研究,特别是通过Neo4j图数据库的拓扑关系实现多级行政区划的可视化建模。
解决学术问题
该数据集有效解决了菲律宾地理信息系统研究中行政边界数据碎片化的问题,为空间计量经济学提供了标准化的地理单元参照系。其价值在于构建了从大区到基层行政单位的完整层级网络,支持区域经济联动分析、公共服务覆盖评估等跨学科研究,显著提升了菲律宾本土化研究的实证数据质量。
衍生相关工作
基于该数据集衍生的经典工作包括融合人口普查与地理编码的时空预测模型,以及结合法案数据的政策影响评估框架。部分研究通过扩展行政区划变迁历史构建了动态演化图谱,另有学者利用其API接口开发了跨平台的地理信息服务平台,推动了开源地理数据生态的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作