five

cicero-im/brazil_zipcodes_ceps_ibge_2018

收藏
Hugging Face2025-01-31 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/cicero-im/brazil_zipcodes_ceps_ibge_2018
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含地理位置信息的巴西数据集,具体包括邮政编码、街道名称、地区、市镇ID、市镇名称、州简称、机构数量、中心点坐标、唯一标识符、时间戳和IBGE城市名称等字段。数据集划分为一个训练集,可用于地理位置相关的机器学习任务。

This is a Brazilian dataset containing geographical information, including fields such as postal code, street name, locality, municipality ID, municipality name, state abbreviation, number of establishments, centroid coordinates, unique identifier, timestamp, and IBGE city name. The dataset is split into a training set, which can be used for machine learning tasks related to geographical location.
提供机构:
cicero-im
搜集汇总
数据集介绍
main_image_url
构建方式
在巴西邮政服务与地理信息系统的交叉领域,邮政编码数据的标准化与整合是支撑物流、城市规划及公共管理的关键基础设施。该数据集以2018年巴西地理与统计研究所(IBGE)的官方行政区划为基础,系统性地汇集了全国范围内90余万条邮政编码(CEP)记录。其构建过程融合了多源数据清洗与结构化处理,每条记录包含邮政编码、街道名称、城市名称、IBGE城市代码、联邦单位缩写、地理质心坐标及时间戳等字段,形成了覆盖巴西所有城市的完整地理编码体系。
特点
该数据集的核心优势在于其多维度的信息整合能力。除基础邮政编码外,它还提供了IBGE官方城市代码与名称,便于与巴西统计系统无缝对接;地理质心字段使得空间分析与可视化成为可能;时间戳字段则支持数据时效性追溯。尤为突出的是,数据集中包含的“estabelecimentos”(机构)字段,暗示了与商业或公共设施分布相关的潜在关联,为社会经济研究提供了独特视角。整体数据规模约为90.5万条记录,经过标准化处理,确保了跨区域数据的一致性。
使用方法
该数据集可直接通过HuggingFace Datasets库加载,使用默认配置即可获取训练分片。用户可基于邮政编码(cep)进行快速检索,或利用城市代码(id_municipio)与联邦单位缩写(sigla_uf)进行区域筛选。结合地理质心(centroide)字段,研究人员可构建空间索引,开展如配送网络优化、人口分布分析或公共服务可达性评估等任务。此外,时间戳字段支持对数据版本进行追踪,适用于历史对比研究。所有字段均为字符串类型,便于进行文本匹配与跨表连接操作。
背景与挑战
背景概述
巴西作为南美洲面积最大的国家,其邮政系统(CEP)的准确性与完整性对物流、公共管理和区域规划至关重要。cicero-im/brazil_zipcodes_ceps_ibge_2018数据集由巴西地理与统计研究所(IBGE)于2018年整理发布,旨在系统化整合全国超过90万条邮政编码及其对应的街道、城市、州属性和地理坐标信息。该数据集的核心研究问题聚焦于如何通过标准化编码结构(如城市名称与IBGE市政代码的关联)提升邮政地址的解析效率,并为人口普查、经济统计等国家数据基础设施提供地理参照基准。自发布以来,该数据集已成为巴西国土信息科学与公共政策领域的基石资源,广泛应用于地址验证、空间聚类分析及城市服务可达性研究,显著推动了拉丁美洲大数据治理的标准化进程。
当前挑战
该数据集面临的核心挑战在于巴西邮政地址系统的固有复杂性:1)领域问题方面,巴西存在大量非标准化地址(如农村区域缺少正式街道名称),导致CEP与具体位置间的映射关系存在歧义,影响自动化地址解析的精度;2)构建过程中,数据整合需协调IBGE的行政编码与巴西邮政的CEP体系,两者更新频率不一致(如市政合并或更名),易造成时间戳冲突与记录冗余。此外,数据集中近90万条样本的坐标字段(centroide)可能因原始采集精度不足而产生空间偏移,进一步加剧了地理编码误差。这些挑战要求后续研究需开发鲁棒的匹配算法以处理缺失值,并建立动态更新机制以维持数据集与真实地理实体的同步性。
常用场景
经典使用场景
该数据集以巴西邮政编码(CEP)为核心,整合了2018年巴西地理与统计研究所(IBGE)发布的行政区划与地理空间信息,涵盖了街道名称、市镇编码、州缩写、地理质心坐标等多元字段。在自然语言处理与地理信息科学交叉领域中,它常被用于构建地址解析与标准化模型,支持从非结构化文本中提取巴西邮政编码并关联至精确的地理实体,是研究葡萄牙语地址实体识别与地理编码回退机制的基础资源。
实际应用
在实际应用中,该数据集被广泛用于物流配送路线优化、电商平台地址自动补全、金融反欺诈系统中的地址核验以及公共卫生领域的疫情地理分布建模。通过将用户输入的模糊地址快速转换为精确的邮政编码与地理坐标,显著提升了巴西境内包裹分拣效率、服务网点覆盖评估与应急响应定位的准确度,成为智慧城市基础设施建设中的关键数据支撑。
衍生相关工作
基于此数据集,衍生出了一系列经典工作,包括面向巴西葡萄牙语的端到端地址解析器(如基于BERT的地址要素序列标注模型)、融合多源地理信息的空间填充算法,以及针对亚马逊区域偏远地址的街景与邮政编码关联研究。这些工作进一步拓展了低资源场景下地理编码的鲁棒性,并为拉美其他国家构建统一地址数据集提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作