Brooklyn, New York Open Street Map dataset
收藏github2017-09-01 更新2024-05-31 收录
下载链接:
https://github.com/Boykai/Project-3-Wrangle-OpenStreetMap-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
用于数据整理、清洗和查询的布鲁克林,纽约开放街道地图数据集。
A dataset for data organization, cleaning, and querying based on the OpenStreetMap data of Brooklyn, New York.
创建时间:
2017-01-18
原始信息汇总
数据集概述
数据集名称
- Brooklyn, New York Open Street Map dataset
数据集来源
- Open Street Map
- Mapzen
数据集格式
- XML
数据集大小
- 原始文件大小:653 MB
- 处理后文件大小:719 MB
数据集内容
- 包含49584653个文档
- 包含7635808个ways
- 包含45006516个nodes
- 包含1574个unique users
数据集问题
- 不一致和过度缩写的街道类型
- 无效的邮政编码
数据集处理
- 使用MongoDB和Python环境进行数据清洗
- 通过正则表达式和硬编码替换不正确的街道类型和邮政编码
- 将无法确定真实值的街道类型和邮政编码替换为NaN
数据集统计
- 最活跃用户:haoyu,贡献13次
- 65个用户仅贡献一次
- 最常见的设施:car_service, car_parking, music_venue等
- 最普遍的宗教:unitarian_universalist
- 最受欢迎的菜系:Po_Boys, southern,_diner
数据集改进建议
- 创建生产版本和暂存版本的数据集
- 使用GPS pos属性自动填充邮政编码的NaN值
数据集结论
- 尽管数据集庞大,但通过本次分析,仅对街道类型和邮政编码进行了清洗,仍有许多潜在错误需要进一步处理
搜集汇总
数据集介绍

构建方式
本数据集的构建主要采取了对开放街图(Open Street Map,OSM)中布鲁克林地区的XML数据进行清洗和格式化的方式。通过对OSM提供的原始XML文件进行有效性、准确性、完整性、一致性和统一性的评估与处理,进而利用数据清洗技术如正则表达式和替换值等,对街道名称和邮政编码等字段进行系统性纠错,最终形成结构化的MongoDB数据库。
特点
布鲁克林地区开放街图数据集具有数据量大、涵盖信息丰富等特点。它包含了布鲁克林地区的街道、建筑物、公园等地理信息,以及与这些地理信息相关的属性数据。数据集经过清洗,对不规范的街道名称和无效的邮政编码进行了处理,替换为'NaN',便于后续的数据分析和处理。
使用方法
使用该数据集时,用户需要先根据MongoDB安装指南完成数据库的安装。之后,可以通过MongoDB的查询语言进行数据的检索和分析。针对数据集中的街道名称和邮政编码等字段,用户可以进行进一步的数据校验和清洗,以提高数据集的准确性。此外,数据集提供了基本的统计数据和查询示例,有助于用户快速上手和理解数据集的结构和内容。
背景与挑战
背景概述
Brooklyn, New York Open Street Map dataset是源于Open Street Map项目的一个子集,专注于纽约市布鲁克林区的地理信息数据。该数据集由Mapzen公司提供,并以XML文件格式存储。其创建旨在通过社区贡献的方式,收集并整理布鲁克林区的详细地理信息。该项目自推出以来,便成为了研究城市地理、城市规划以及地理信息系统等领域的重要资源。主要研究人员或机构涉及使用该数据集进行数据清洗和处理的个人和团队,例如在 Udacity 的相关项目中作为实践数据集使用。该数据集对于理解城市结构和特征,以及推动Open Street Map项目的发展具有重要的研究价值和影响力。
当前挑战
在数据集构建和使用过程中,研究人员面临了多项挑战。首先,数据集中街道类型的表示存在不一致性及过度缩写的问题,例如将'11th St.'正确转换为'11th Street'。其次,数据集中的邮政编码存在有效性问题,一些不符合纽约市政府公布的有效邮政编码列表的值被替换为'NaN'。此外,数据清洗过程中还需处理各种异常和缺失值,以及如何高效地将清洗后的数据存储至MongoDB数据库中。这些挑战不仅要求研究人员具备数据处理的能力,还要求他们能够运用创新的方法来解决数据质量的问题,从而保证数据集的准确性和可用性。
常用场景
经典使用场景
在地理信息系统(GIS)领域,Brooklyn, New York Open Street Map dataset被广泛用于城市规划和地理分析。其经典使用场景包括通过对街道名称、邮政编码等地理信息的清洗和标准化,为城市基础设施数字化提供精确的数据支持,进而辅助城市规划者进行决策支持系统(DSS)的设计与实现。
衍生相关工作
基于该数据集,衍生出了一系列经典工作,如城市交通模式分析、地块使用分类研究以及城市安全监控系统的开发。这些工作不仅推动了地理信息科学的发展,也为智慧城市的构建提供了关键技术支撑。
数据集最近研究
最新研究方向
Brooklyn, New York Open Street Map数据集的最新研究方向主要聚焦于数据质量提升,包括有效性、准确性、完整性、一致性和统一性的评估与清洗。研究人员通过Python环境中的MongoDB和PyMongo对OpenStreetMap数据进行处理,解决如街道类型不一致和无效邮政编码等问题。研究重点在于通过数据清洗提高地理信息数据的可用性,并探索数据集在空间分析、城市规划以及公共服务等领域的应用,对于促进智慧城市建设具有积极影响。
以上内容由遇见数据集搜集并总结生成



