five

sapnhap-bando-vn

收藏
Hugging Face2026-05-09 更新2026-05-10 收录
下载链接:
https://huggingface.co/datasets/tmquan/sapnhap-bando-vn
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是越南2025年行政区划合并地图的完整镜像,记录了根据越南国会第202/2025/QH15号决议和2025年6月16日34项后续常务委员会决议引入的合并后行政单位。合并后,越南的一级行政单位从63个减少到34个(28个省和6个中央直辖市),二级行政单位从705个区/10,599个公社减少到3,321个公社/区/特殊行政单位。数据集包含每个合并后实体的合并沿革、面积、人口、行政中心、授权法令以及多边形(或点)几何信息。数据集适用于表格分类、表格回归和文本分类任务,特别适用于地理和行政区划相关的研究。数据集包含6,712行数据,分为34个一级单位、3,321个二级单位和3,357个人民委员会总部。此外,数据集还提供了GeoJSON格式的地理多边形数据和交互式可视化图表。
创建时间:
2026-05-08
原始信息汇总

好的,这是对数据集 tmquan/sapnhap-bando-vn 的详情总结。

数据集概述

此数据集是越南2025年行政合并地图集的完整结构化镜像,数据源自官方网站 sapnhap.bando.com.vn。它记录了2025年越南历史性的行政改革,即根据国会第202/2025/QH15号决议和后续的34项常委会决议,将全国行政单位大幅合并后的结果。

核心内容

  • 语言:越南语 (vi),英语 (en)
  • 许可证:CC-BY-NC 4.0
  • 数据大小:1K < n < 10K
  • 任务类型:表格分类、表格回归、文本分类
  • 标签:越南语、地理学、行政单位、2025年合并后

数据变更规模

  • 一级行政单位:从 63 个(省/直辖市)减少为 34 个(28个省 + 6个中央直辖市)。
  • 二级行政单位:从 705 个县 / 10,599 个社/坊减少为 3,321 个社/坊/特殊行政单位。

数据集结构与配置

数据集提供四个配置,以Parquet格式存储:

配置名称 描述 行数
all 所有数据(省 + 社 + 委员会) 6,712
provinces 34个一级行政单位 34
communes 3,321个二级行政单位 3,321
committees 3,357个人民委员会总部 3,357

数据内容与功能

除了行政单位的基本信息,数据集还包含:

  • 合并谱系:每个现存的行政单位的前身实体信息。
  • 地理几何:包含34个省的多边形GeoJSON和3,321个社/坊的多边形GeoJSON。
  • 人口与面积:2024年全国总人口为 113,571,926,陆地总面积为 331,325.62 km²
  • UMAP嵌入:使用 sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 模型为每个单位的合并描述生成384维向量,并预计算了2维UMAP坐标和HDBSCAN聚类结果。
  • 交互式图表figures/ 目录下包含17组分析图表(地图和条形图),均提供静态PNG和可交互的Plotly HTML文件。

数据来源构建流程

数据通过一个5阶段管道生成:

  1. 下载:从 sapnhap.bando.com.vn 的4个端点爬取数据。
  2. 解析:标准化越南数字格式,提取地理摘要,并为每个社/委员会分配上级省份。
  3. 提取:从合并描述中提取TF-IDF关键词,并根据官方映射为每个单位分配宏区域。
  4. 嵌入:使用多语言句子编码器生成384维文本嵌入。
  5. 降维:使用UMAP将嵌入降至2维,并进行密度聚类。

法律与版权信息

  • 原始数据归越南农业与环境部和越南地图出版社所有。
  • 该数据集为基于源数据的再分发,采用 CC-BY-NC 4.0 许可证。
  • ISBN:978-632-622-303-3
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自越南官方制图出版社发布的2025年行政区划合并地图集,全面镜像自sapnhap.bando.com.vn网站。通过五阶段NeMo Curator流水线构建,依次执行数据下载、解析、特征提取、语义嵌入与降维聚类。具体而言,首先通过POST请求调用四个API端点获取约6,700条原始记录,随后对越南语数字格式进行标准化处理,并将地理坐标简化为质心、边界框及WKT文本。接着利用TF‑IDF算法从合并历史描述中提取关键词,并使用paraphrase-multilingual-MiniLM-L12-v2模型生成384维的语义嵌入向量,最终通过UMAP降维至二维空间并结合HDBSCAN进行密度聚类,产出一套包含行政区划、人口、面积、合并历程及几何信息的结构化表格。
特点
该数据集的核心特点在于其全面性与时效性,完整记录了越南依据2025年第202/QH15号国会决议进行的重大行政重组,将63个省级单位精简为34个,并将705个县和10,599个社合并为3,321个二级单位。数据涵盖省、社、人民委员会三个层级共6,712条记录,每个实体均附有合并谱系、面积、人口、行政中心、法令依据及多边形或点状几何信息。此外,数据集提供了丰富的分析资源,包括17幅静态PNG与交互式HTML地图,以及通过UMAP嵌入自动显现的六大宏观区域聚类结构,充分反映了合并后行政单元的空间分布与语义关联特征。
使用方法
用户可通过Hugging Face的datasets库便捷加载该数据集,支持all、provinces、communes和committees四种配置,分别获取全量数据或特定层级的子集。加载后的数据集包含id、名称、面积、人口、行政中心、前身单元列表等丰富字段。GeoJSON格式的地理边界文件需通过huggingface_hub单独下载,可结合Python的json库解析后用于地图可视化。数据集还附带完整的分析笔记本和文档,用户可复现文中的交互式图表,或基于嵌入向量与UMAP坐标进行进一步的聚类分析、空间统计与合并影响研究。
背景与挑战
背景概述
sapnhap-bando-vn数据集由TMQuan于2026年构建,旨在系统性地记录越南2025年行政区划重组后的全新治理单元。此次重组依据国会第202/2025/QH15号决议及后续34项常委会决议,将全国63个一级单位合并为34个(28省与6中央直辖市),并将705个县与10599个社镇重构为3321个二级单位。数据集由越南农业农村与环境部及地图出版社授权发布,以镜像形式完整收录了重组后各省、社镇及人民委员会所在地的几何边界、面积、人口、合并沿革与法令依据。该数据集填补了后合并时期行政地理信息系统的空白,为区域规划、公共政策模拟与人口迁移研究提供了权威的基线资料。
当前挑战
该数据集面临的核心挑战在于处理大规模行政单元合并过程中产生的数据异构性与几何拓扑一致性。领域层面,越南行政区划的急剧收缩(二级单位从逾一万减少至三千余)要求算法与模型能够适配粗粒度空间分析,同时保留微观合并轨迹(如单个实体最多吸纳16个前身单元)的完整性。构建层面,需从官方网站同步约6700个端点,并统一规范越南语数字格式(如4.199.824的千分位转写)、将GeoJSON简化为质心与WKT摘要,同时通过TF-IDF提取合并沿革文本中的关键词并映射至六大宏观区域,确保时空跨度的数据无缝对齐与可复现性。
常用场景
经典使用场景
sapnhap-bando-vn数据集是越南2025年行政区划改革后的第一个综合性地理行政单元镜像,其经典使用场景集中于后合并时代的区域地理信息检索与结构化分析。研究人员可借助该数据集加载省级、县级及人民委员会三级行政实体的属性表与GeoJSON几何对象,实现对34个一级行政单位、3321个二级行政单位与3357个委员会驻地的空间关联查询。典型任务包括以parquet格式读取面积、人口、密度、合并前身列表等结构化字段,并与地理坐标进行联合计算,为区域比较或演变追踪提供精准的数据基底。
实际应用
在实际应用层面,sapnhap-bando-vn广泛服务于越南政府数字化转型与地理信息服务系统的底层数据建设。国土规划部门可依据30个字段的属性和多边形边界直接加载可视化底图,用于人口密度分布、海岸带管控或资源调配的决策支持。地图出版机构能以此为权威来源核对行政区划变更后的制图边界与名称标注,减少因图纸与更新脱节导致的出版误差。此外,社区治理平台可基于委员会地址与电话字段,构建面向公众的政府服务导航功能,实现从合并公告到便民接口的数据闭环。
衍生相关工作
围绕sapnhap-bando-vn已衍生出一系列标志性的学术与工程工作,涵盖数据管道、可视化叙事与语义分析三个层面。数据管道方面,其遵循NeMo Curator五阶段流程(下载—解析—提取—嵌入—降维),形成了从sapnhap.bando.com.vn原始API到结构化parquet表的可复现抽取体系;该流程本身可作为越南政务网页数据挖崛的方法论模板。可视化层面,发布的17组成图(5幅地图与12幅分析图)以NVIDIA绿色调与LaTeX衬线字体为统一风格,同时提供静态PNG与交互式HTML双格式,为地理数据展示树立了高完成度的技术标准。语义分析方面,基于paraphrase-multilingual-MiniLM-L12-v2的384维嵌入与UMAP投影揭示了宏观区域标签在合并文本空间中可被无监督分离,这一发现激发了后续对越南行政命名习惯与社会空间结构关系的建模探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作