chile-utils datasets
收藏github2026-05-13 更新2026-05-14 收录
下载链接:
https://github.com/felipesanma/chile-utils
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含智利公共数据集的仓库,提供简单、版本化且易于使用的JSON格式数据,涵盖司法、领土、市政、节假日等多个领域,专为开发者、研究人员、公民技术、记者和分析项目设计。
This is a repository containing Chilean public datasets, offering simple, versioned and user-friendly JSON-formatted data. It covers multiple domains including judiciary, territorial affairs, municipal governance, public holidays and more, and is specifically designed for developers, researchers, civic technologists, journalists and analytics projects.
创建时间:
2026-05-06
原始信息汇总
数据集概述:chile-utils
数据集简介
chile-utils 是一个面向开发者、研究人员、公民科技、记者、法律科技以及数据分析或可视化项目的公共数据集仓库,专注于提供关于智利的简单、版本化的公开数据。目标是将分散的公共数据转化为易于消费、文档齐全且稳定的 JSON 文件。
数据集内容
司法系统(pjud)
- cortes-apelaciones.json:上诉法院数据
- tribunales.json:法庭数据
- competencias.json:管辖权数据
- tipos-tribunal.json:法庭类型数据
行政区划(territorio)
- regiones.json:大区数据
- provincias.json:省份数据
- comunas.json:社区数据
- comunas-con-coordenadas.json:含坐标的社区数据
市政(municipalidades)
- municipalidades.json:市政数据
- sitios-web.json:网站数据
- metadata.json:元数据
节假日(feriados)
- feriados.json:节假日数据
- feriados-2000.json:2000年节假日数据
- feriados-YYYY.json:各年份节假日数据(以YYYY替代具体年份)
- metadata.json:元数据
超级管理局(superir)
- publicaciones.json.gz:出版物数据(压缩格式)
- metadata.json:元数据
数据格式与访问
- 所有数据集以 JSON 格式提供,部分文件使用 gzip 压缩
- 可通过 GitHub raw 链接直接访问,例如:
- 行政区划社区数据:
https://raw.githubusercontent.com/felipesanma/chile-utils/main/territorio/comunas.json
- 行政区划社区数据:
- JSON 文件格式化使用 2 空格缩进
- 字段命名采用
snake_case风格 - 代码使用官方字符串标识
数据来源与原则
- 数据来源于公共机构,文档中记录了具体来源(见
docs/fuentes.md) - 数据集遵循以下原则:
- JSON 简单且可移植
- 使用官方代码
- 不包含不必要的个人数据
- 来源透明可追溯
- 生成脚本清晰可重复
许可与声明
- 采用 MIT 许可证
- 本项目为独立项目,不属于任何智利公共机构或数据来源方
- 数据仅用于互操作性、透明度、分析和技术重用目的
搜集汇总
数据集介绍

构建方式
chile-utils datasets 是一个面向智利公共数据的结构化数据集仓库,旨在将分散于多个官方机构的公开信息转化为稳定、易用的 JSON 文件。数据集的构建遵循系统化的流程:首先从智利司法机构、领土管理部门、市政当局、节假日公告及公共机构等官方来源采集原始数据;随后通过 Python 脚本进行清洗、标准化与整合,产出结构清晰、字段统一的 JSON 文件;所有数据均采用官方编码作为字符串标识,字段命名遵循 snake_case 规范,并经过格式化与验证,确保其一致性与可复用性。
特点
该数据集的核心优势在于其简洁性与版本可控性。所有 JSON 文件保持扁平化目录结构,便于通过原始 URL 直接访问,极大降低了开发者的使用门槛。数据覆盖智利司法辖区、行政区划、市政信息、法定节假日及公共机构公告等多个领域,每个子集均附带元数据文件及完整的源文档说明。数据集遵循 MIT 许可证,强调数据来源于公共机构且不含不必要个人信息,确保了透明性与合规性。脚本化的生成流程支持数据定期再生,维持信息的时效性与准确性。
使用方法
数据集可直接通过 GitHub Raw URL 获取,无需本地克隆仓库。用户只需在代码中构造文件路径对应的 URL,即可使用标准 HTTP 请求下载 JSON 文件。对于压缩格式的文件,如 superir 目录下的 publicaciones.json.gz,需在客户端解压后再解析。示例代码展示了在 JavaScript 环境中使用 fetch 直接获取 comunas.json,以及在 Python 中通过 urllib 和 gzip 模块处理压缩数据。此外,用户可通过运行 scripts 目录下的 Python 脚本自行再生数据,需提前安装 requirements.txt 中的依赖,并参照 docs/contribuciones.md 设置必要的环境变量以访问外部数据源。
背景与挑战
背景概述
chile-utils datasets 是一个专注于智利公共数据的开源数据集项目,由开发者 Felipe San Martín 创建,旨在将分散于各类官方渠道的公共信息整合为结构化的 JSON 文件,便于开发者、研究人员、公民科技从业者及法律科技项目直接使用。该项目诞生于对智利公共数据可访问性和互操作性不足的洞察,核心研究问题在于如何将零散的政府数据转化为稳定、易用且版本可控的数据资产。自发布以来,该项目在智利本土的 civic tech 社区和数据分析领域产生了显著影响,为透明治理、区域研究及公共服务优化提供了可靠的数据基础设施。
当前挑战
该数据集面临的核心挑战首先源于所解决的领域问题:智利公共数据分散于多个机构,格式各异且更新不及时,导致开发者难以高效获取并利用这些数据进行应用开发或分析。例如,司法、领土和节日数据分别存放于不同系统,缺乏统一接口。其次,构建过程中遇到的挑战包括:数据来源的官方性验证与版本一致性维护,尤其是从非标准化网站抓取数据时可能出现的字段缺失或编码错误;压缩数据(如 superir 出版物)的解压与结构解析需额外处理;此外,确保数据集随时间推移仍保持稳定引用链接,同时支持贡献者协作更新,也增加了维护复杂性。
常用场景
经典使用场景
chile-utils 数据集旨在将智利公共数据转化为易于访问的 JSON 格式,其经典使用场景包括地理信息系统(GIS)分析、司法审判结构可视化以及政治或社会事件的时序研究。例如,研究人员通过加载 `comunas-con-coordenadas.json` 可快速构建智利全国的行政区划地图,而 `tribunales.json` 与 `cortes-apelaciones.json` 则用于映射司法管辖层级,为司法管辖区划分析提供基础数据支撑。
解决学术问题
该数据集解决了多个学术领域的瓶颈问题:地理分区数据分散且缺乏统一标准,司法机构代码与行政区划代码相互独立,公共假日原始数据常以非结构化文本呈现,且跨部门数据关联困难。通过提供版本化、文档完备且来源可追溯的结构化数据,它为计算社会科学、法律信息学与公共政策评估等方向提供了可复现的研究基础,显著降低了数据清洗与融合的时间成本。
衍生相关工作
围绕该数据集衍生出一系列经典工作:在开源社区层面,贡献者基于 `regiones.json` 和 `comunas.json` 封装了 Python 库 `chile-geo`,支持地理编码的批量逆解析;在教育领域,高校课程实验利用 `superir/publicaciones.json.gz` 训练文本分类模型,分析企业公告的主题分布;在政府透明度项目中,组织者将原 JSON 数据转换为 SQLITE 格式,构建了可查询的“智利司法案件数据库”,使零技术背景的调研人员也能进行跨表统计。
以上内容由遇见数据集搜集并总结生成



