five

Vietnam Administrative Units Dataset

收藏
github2025-08-03 更新2025-08-04 收录
下载链接:
https://github.com/tranngocminhhieu/vietnamadminunits
下载链接
链接失效反馈
官方服务:
资源简介:
该项目包含越南行政单位的开放数据集,位于data/processed/目录下,包括63个省的数据集、34个省的数据集以及从63个省到34个省数据集的映射。

This project contains open datasets for Vietnamese administrative divisions, stored under the data/processed/ directory. The datasets include datasets for 63 provinces, datasets for 34 provinces, and the mapping dataset from the 63-province dataset to the 34-province dataset.
创建时间:
2025-07-16
原始信息汇总

越南行政区划解析与转换工具数据集概述

数据集基本信息

  • 项目名称:Vietnam Administrative Units Parser & Converter
  • 数据类型:行政区划数据(省、区、街道)
  • 数据格式:结构化数据集(CSV/JSON)
  • 数据来源
    • 越南国家统计局(danhmuchanhchinh.gso.gov.vn)
    • 越南行政区划合并平台(sapnhap.bando.com.vn)
    • Google地理编码API

数据集内容

核心数据集

  1. 63省数据集(旧版行政区划)

    • 路径:data/processed/
    • 状态:已冻结(仅修正拼写错误)
  2. 34省数据集(2025年新版行政区划)

    • 路径:data/processed/
    • 状态:持续更新(随政府公告调整)
  3. 行政区划映射表

    • 63省→34省转换映射关系

数据特征

  • 包含完整行政区划层级(省-区-街道)
  • 每个行政单元包含:
    • 官方名称/简称
    • 行政类型(省/区/街道)
    • 经纬度坐标
    • 合并标记(isDefaultNewWard)

数据处理方法

  1. 数据清洗

    • 标准化行政单位名称
    • 统一拼写格式
  2. 空间匹配策略

    • 使用多边形包含检测(针对分割的街道)
    • 默认采用最近中心点匹配
  3. 数据更新机制

    • 旧版数据保持稳定
    • 新版数据动态更新

应用功能

核心功能

  1. 地址解析(parse_address)

    • 支持新旧两种行政区划模式
    • 输出结构化AdminUnit对象
  2. 地址转换(convert_address)

    • 63省格式→34省格式转换
    • 支持街道级精确匹配
  3. Pandas集成

    • 标准化行政区划列
    • 批量地址转换

数据访问接口

  • 数据库查询功能
  • 支持字段筛选和限量查询

技术实现

  1. 解析策略

    • 关键词字典匹配
    • 正则表达式模式识别
  2. 转换策略

    • 地理编码辅助决策
    • 空间关系分析

典型应用场景

  • 政府数据标准化
  • 商业地址清洗
  • 地理信息系统开发
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于越南政府官方数据源(如danhmuchanhchinh.gso.gov.vn)及地理编码API构建,通过系统化清洗、映射与增强流程形成标准化行政单元库。核心创新在于采用空间匹配策略处理行政区域合并场景:对拆分后的新区划,通过地理坐标匹配算法(基于多边形包含判定与质心距离计算)确定默认映射关系,并标记isDefaultNewWard属性以确保数据连贯性。数据集持续维护机制包含63省旧版数据的静态归档与34省新版数据的动态更新。
特点
数据集呈现越南行政区划改革的完整时空维度,包含63省旧制与34省新制两套标准体系及其映射关系。技术特色体现在:1) 支持非规范地址文本的模糊匹配,通过关键词词典与正则表达式实现容错解析;2) 集成地理空间属性(经纬度坐标)支持空间分析;3) 采用层次化数据结构存储省-县-乡三级单元及其缩写形式。数据质量通过多源交叉验证保障,特别针对2025年省合并方案设计了专用转换逻辑。
使用方法
通过Python包提供链式操作接口:1) parse_address函数支持模式化解析(LEGACY/FROM_2025),可提取结构化AdminUnit对象及其空间属性;2) convert_address函数实现63省到34省体系的自动转换,内置地理编码引擎处理拆分区域映射;3) 与Pandas深度集成,提供standardize_admin_unit_columns等函数实现批量表格数据处理。数据库模块支持SQL查询原始数据,配套的地址归一化工具可处理越南语特殊字符与缩写变体。
背景与挑战
背景概述
越南行政区划数据集(Vietnam Administrative Units Dataset)是一个专注于越南行政区划数据解析、转换和标准化的开源数据集,由个人开发者发起并于近年创建。该数据集旨在应对越南2025年省级行政区划合并带来的复杂变化,为研究人员和开发者提供准确、一致的行政区划数据支持。数据集涵盖了63个省份的旧版数据和34个省份的新版数据,并提供了两者之间的映射关系。其核心研究问题在于解决越南行政区划动态变化导致的数据不一致性,为地理信息系统、公共政策研究、商业分析等领域提供了重要的数据基础。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题方面,越南行政区划频繁调整导致历史数据与现行数据之间存在复杂映射关系,如何确保新旧行政区划的准确对应是一大难题;2) 构建过程中,数据来源分散且格式不统一,需要进行大量清洗、标准化和验证工作;3) 对于被分割的行政区划单元,精确匹配新旧对应关系需要依赖地理坐标数据,而部分区域缺乏可靠的街道级地理信息;4) 保持数据集与政府最新行政区划变更同步需要持续的维护和更新。
常用场景
经典使用场景
越南行政区划数据集在区域规划与政策研究中具有重要价值,尤其在2025年省级行政区合并的背景下,该数据集为研究人员提供了从63省份到34省份的完整映射关系。通过内置的地址解析和转换功能,学者能够高效处理历史行政区划数据与未来规划方案的对比分析,为区域经济整合、资源配置优化等研究奠定数据基础。数据集的结构化设计使得跨时期行政区划比较研究成为可能,显著提升了相关领域研究的准确性和可比性。
解决学术问题
该数据集有效解决了越南行政区划变动研究中的关键痛点。传统研究面临历史数据与现行标准不兼容、手工整理工作量大且易出错等问题。通过提供标准化API和预处理好的映射关系,数据集使学者能专注于政策影响分析而非数据清洗,特别在行政区划合并对公共服务覆盖、经济指标统计等研究领域具有突破性意义。地理坐标信息的嵌入更进一步支持了空间计量经济学研究的开展。
衍生相关工作
基于该数据集已衍生出多项重要研究成果,包括《越南行政区划改革的经济影响评估》《基于多源数据的城市边界识别算法》等学术论文。在技术层面,开发者社区构建了配套的可视化工具和GIS插件,形成完整的空间分析生态。数据集还作为核心组件被纳入越南智慧城市建设项目,支撑了交通管理、应急响应等多个城市级应用系统的开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作