five

gnaf-2022

收藏
Hugging Face2024-08-17 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/dylanhogg/gnaf-2022
下载链接
链接失效反馈
官方服务:
资源简介:
Geoscape GNAF 2022 数据集是一个为澳大利亚企业和政府提供的地址编码数据库。它包含了超过1500万个地址的详细信息,包括州、郊区、街道、门牌号和坐标参考。这些数据来源于政府数据,并由Geoscape Australia维护。该数据集通过PostgreSQL脚本转换为CSV格式,包含建筑名称、公寓号、纬度、经度等多种特征。该数据集基于CC BY 4.0许可,但对使用地址进行邮寄有额外限制。
创建时间:
2024-08-17
原始信息汇总

Geoscape Geocoded National Address File (GNAF) 2022 数据集概述

数据集信息

特征(Features)

  • address_detail_pid: 字符串
  • street_locality_pid: 字符串
  • locality_pid: 字符串
  • building_name: 字符串
  • lot_number_prefix: 字符串
  • lot_number: 字符串
  • lot_number_suffix: 字符串
  • flat_type: 字符串
  • flat_number_prefix: 字符串
  • flat_number: 浮点数
  • flat_number_suffix: 字符串
  • level_type: 字符串
  • level_number_prefix: 字符串
  • level_number: 浮点数
  • level_number_suffix: 字符串
  • number_first_prefix: 字符串
  • number_first: 浮点数
  • number_first_suffix: 字符串
  • number_last_prefix: 字符串
  • number_last: 浮点数
  • number_last_suffix: 字符串
  • street_name: 字符串
  • street_class_code: 字符串
  • street_class_type: 字符串
  • street_type_code: 字符串
  • street_suffix_code: 字符串
  • street_suffix_type: 字符串
  • locality_name: 字符串
  • state_abbreviation: 字符串
  • postcode: 整数
  • latitude: 浮点数
  • longitude: 浮点数
  • geocode_type: 字符串
  • confidence: 整数
  • alias_principal: 字符串
  • primary_secondary: 字符串
  • legal_parcel_id: 字符串
  • date_created: 字符串

分割(Splits)

  • train: 包含 15357486 条数据,占用 4657596871 字节

数据大小

  • 下载大小: 1584880457 字节
  • 数据集大小: 4657596871 字节

配置(Configs)

  • default: 包含训练数据文件,路径为 data/train-*

许可(License)

  • cc-by-4.0

语言(Language)

  • en

任务类别(Task Categories)

  • text-classification

标签(Tags)

  • geospatial
  • address
  • location
  • australia
  • gnaf
  • geoscape

名称(Pretty Name)

  • gnaf

大小类别(Size Categories)

  • 10M<n<100M

数据集概述

Geoscape GNAF 是澳大利亚企业和政府的 geocoded 地址数据库。它是澳大利亚 geocoded 地址数据的可靠来源,包含超过 5000 万个贡献地址,提炼成 1540 万个 G-NAF 地址。该数据集由 Geoscape Australia 使用独立审查和验证的政府数据构建和维护。

它包含澳大利亚街道地址的州、郊区、街道、号码和坐标参考或地理编码。

原始数据源

  • 数据源: https://data.gov.au/data/dataset/geocoded-national-address-file-g-naf
  • 产品描述: https://docs.geoscape.com.au/projects/gnaf_desc/en/stable/index.html

数据转换

使用 PostgreSQL 脚本从以下地址转换为 CSV 格式:

  • 脚本地址: https://github.com/dylanhogg/address-net/tree/master/gnaf_loading

数据列

该数据集包含 1530 万行,提取自源 GNAF 文件的文本和数值列,使用上述 PostgreSQL 脚本进行提取。

列名

  • building_name
  • flat_number
  • flat_number_prefix
  • flat_number_suffix
  • flat_type
  • latitude
  • level_number
  • level_number_prefix
  • level_number_suffix
  • level_type
  • locality_name
  • longitude
  • lot_number
  • lot_number_prefix
  • lot_number_suffix
  • number_first
  • number_first_prefix
  • number_first_suffix
  • number_last
  • number_last_prefix
  • number_last_suffix
  • postcode
  • state_abbreviation
  • street_name
  • street_suffix_code
  • street_type_code

数据来源和收集方法

数据源

G-NAF 是一个复杂且庞大的数据集(约 5GB 未压缩),由多个表组成,使用前需要进行连接。

该数据集源自 2022 年 8 月的源数据。

收集方法

使用 PostgreSQL 脚本转换为 CSV 格式:

  • 脚本地址: https://github.com/dylanhogg/address-net/tree/master/gnaf_loading

限制

该数据集的最终用户许可协议基于 Creative Commons Attribution 4.0 International license (CC BY 4.0),但增加了一项重要限制:不得将开放的 G-NAF 数据用于生成地址或编译地址以发送邮件,除非用户已通过参考辅助信息源验证了每个用于发送邮件的地址能够接收邮件。

署名

包含或使用 G-NAF © Geoscape Australia 开发的 G-NAF 数据,根据开放地理编码国家地址文件(G-NAF)最终用户许可协议获得澳大利亚联邦政府的许可。

搜集汇总
数据集介绍
main_image_url
构建方式
Geoscape GNAF 2022数据集是基于澳大利亚政府提供的地址数据构建而成,涵盖了超过5000万个地址信息,经过筛选和验证后,最终形成了包含1540万条地址记录的高质量数据集。数据通过PostgreSQL脚本从原始GNAF文件中提取并转换为CSV格式,确保了数据的结构化和可操作性。数据来源包括澳大利亚各州、郊区、街道、门牌号以及地理坐标信息,经过独立审查和验证,确保了数据的准确性和权威性。
特点
该数据集的特点在于其全面性和精确性,涵盖了澳大利亚全国范围内的地址信息,包括建筑物名称、楼层信息、街道名称、邮政编码、经纬度坐标等详细字段。数据集中的每条记录都经过地理编码处理,能够精确反映地址的地理位置。此外,数据集的字段设计丰富,支持多种地理信息分析任务,如地址匹配、地理编码和空间分析等。数据集的规模庞大,包含1530万条记录,适用于大规模数据处理和分析。
使用方法
使用Geoscape GNAF 2022数据集时,用户可以通过加载CSV文件直接访问数据,或通过PostgreSQL等数据库工具进行进一步处理和分析。数据集适用于地理信息系统(GIS)应用、地址验证、地理编码以及空间数据分析等场景。用户可以根据需求提取特定字段,如街道名称、邮政编码或经纬度信息,进行定制化分析。需要注意的是,数据集的使用受到Creative Commons Attribution 4.0 International许可的限制,特别是在邮件发送场景中,需验证地址的可用性。
背景与挑战
背景概述
Geoscape Geocoded National Address File (GNAF) 2022 是由澳大利亚地理信息公司 Geoscape Australia 构建和维护的地理编码地址数据库,旨在为澳大利亚的商业和政府机构提供精确的地址数据。该数据集创建于2022年,包含了超过1530万条经过地理编码的地址记录,涵盖了澳大利亚各州、郊区、街道、门牌号及其对应的地理坐标。GNAF 数据集的核心研究问题在于如何高效地整合和验证来自多个政府数据源的地址信息,以确保其准确性和可靠性。该数据集在澳大利亚的地理信息系统、物流规划、应急响应等领域具有广泛的应用价值,极大地推动了地理信息科学的发展。
当前挑战
GNAF 数据集在解决地址地理编码问题时面临多重挑战。首先,地址数据的多样性和复杂性使得数据清洗和标准化成为一项艰巨任务,尤其是在处理不同格式的地址信息时。其次,数据集的构建过程中需要整合来自多个政府数据源的信息,如何确保数据的一致性和准确性是一个关键问题。此外,由于地址信息的动态变化,数据集的更新和维护也面临较大挑战。最后,尽管数据集提供了丰富的地理编码信息,但其在实际应用中的精度和置信度仍需进一步验证,尤其是在需要高精度地理定位的场景中。
常用场景
经典使用场景
Geoscape GNAF数据集广泛应用于地理信息系统(GIS)和位置智能领域,特别是在地址匹配和地理编码任务中。研究人员和开发者利用该数据集进行地址标准化、地址解析以及地理位置的精确定位。通过其丰富的地理编码信息,GNAF数据集能够帮助用户将非结构化地址数据转换为精确的地理坐标,从而支持地图绘制、路径规划和位置分析等任务。
解决学术问题
GNAF数据集解决了地理信息科学中的多个关键问题,尤其是在地址数据的标准化和地理编码方面。通过提供精确的地理坐标和详细的地址信息,该数据集帮助研究人员克服了地址数据不一致性和模糊性的挑战。此外,GNAF数据集还为城市规划和交通管理等领域的研究提供了可靠的数据支持,推动了地理信息系统的技术进步。
衍生相关工作
基于GNAF数据集,许多经典的研究工作得以展开。例如,研究人员开发了基于机器学习的地址解析模型,能够自动将非结构化地址转换为标准格式。此外,GNAF数据集还被用于构建高精度的地理编码服务,支持全球范围内的位置搜索和导航。这些衍生工作不仅提升了地址数据的处理效率,还为地理信息系统的应用开辟了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作