Parking Violations Issued Fiscal Year 2016

github2020-10-14 更新2024-05-31 收录

下载链接：

https://github.com/rv1448/NYCParkingTicketsDataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含2016财年纽约市停车违规记录的数据集，包含43个字段，共计1080万条记录，数据格式为逗号分隔值。

This dataset comprises parking violation records for New York City during the fiscal year 2016. It includes 43 fields and a total of 10.8 million records, formatted as comma-separated values.

创建时间：

2019-06-13

原始信息汇总

数据集概述

数据集名称

NYC parking dataset

问题陈述

分析纽约发布的停车违规数据，按年份、警察、车辆类型进行分析。
使用额外数据集计算违规产生的总金额。
找出交通警察回收的罚款金额。

数据集详情

主要数据集：
- 包含2016财年的停车违规数据。
- 数据包含43个字段，共1080万行。
- 文件格式为逗号分隔值（CSV）。
- 数据来源：Kaggle
查找数据集：
- 包含违规代码及其对应的价格。
- 数据来源：纽约市网站

输入字段

包括但不限于：
- 传票号码
- 车牌ID
- 注册州
- 车牌类型
- 违规代码
- 车辆型号
- 发行机构
- 违规位置
- 违规时间
- 违规描述等

项目描述

数据上传至AWS S3。
使用EMR机器（m5.xlarge）和Spark进行数据处理。
数据按时间、违规、车辆、发行机构分为维度表。
事实表包含位置、违规详情及罚款金额。

数据模型

采用星型模式数据模型。

加载脚本

初始加载脚本：inital_load.py
- 用于初始化填充维度表和事实表。
- 仅用于一次性的种子数据填充。
增量加载脚本：incremental_load.py
- 用于增量填充维度表和事实表。
- 使用初始加载脚本生成的SK值。
- 用于定期或计划性运行。

搜集汇总

数据集介绍

构建方式

该数据集构建于2016财年纽约市发布的停车违规记录，主要数据来源于Kaggle平台，包含1080万行记录，涵盖43个字段。数据以逗号分隔文件形式存储，记录了包括传票编号、车牌号、违规代码、车辆类型等详细信息。此外，还通过纽约市官方网站获取了违规代码对应的罚款金额，作为辅助数据。数据集通过AWS S3存储，并使用EMR集群上的Spark进行数据处理，构建了基于时间和违规类型等多维度的数据模型。

使用方法

该数据集的使用方法包括初始加载和增量加载两种方式。初始加载脚本用于首次加载数据，生成维度表和事实表，并为每条记录生成唯一标识符。增量加载脚本则用于定期更新数据，利用初始加载生成的标识符进行数据更新。用户可以通过Spark脚本对数据进行处理和分析，支持从时间、违规类型、车辆类型等多个维度进行深入分析，帮助研究违规行为的分布和趋势。

背景与挑战

背景概述

Parking Violations Issued Fiscal Year 2016数据集由纽约市政府发布，旨在分析2016财年期间由警察开具的停车违规行为。该数据集包含1080万行数据，涵盖43个字段，详细记录了违规时间、车辆类型、警察信息等。数据集的主要研究问题包括分析违规行为的时间分布、警察开具罚单的频率以及不同车辆类型的违规情况。此外，该数据集还结合了其他数据源，用于计算违规行为产生的总罚款金额及交通警察回收的罚款比例。该数据集为城市交通管理、违规行为分析及政策制定提供了重要的数据支持。

当前挑战

该数据集在解决停车违规行为分析问题时面临多重挑战。首先，数据量庞大且复杂，包含1080万行记录和43个字段，处理和分析这些数据需要高效的算法和计算资源。其次，数据质量可能存在问题，如缺失值、不一致的格式或错误记录，这需要在预处理阶段进行大量清洗和验证工作。此外，数据集涉及多个维度的分析，如时间、车辆类型和警察信息，如何有效地构建维度表和事实表以支持多维分析也是一个技术挑战。最后，数据集的增量更新和实时分析需求对数据处理流程的灵活性和效率提出了更高的要求。

常用场景

经典使用场景

在交通管理和城市规划领域，Parking Violations Issued Fiscal Year 2016数据集被广泛用于分析纽约市停车违规行为的时空分布特征。研究者通过该数据集，能够深入探讨不同时间段、警察执法区域以及车辆类型对违规行为的影响，从而为城市交通政策的制定提供数据支持。

解决学术问题

该数据集有效解决了城市交通管理中停车违规行为的量化分析问题。通过整合违规代码和罚款金额，研究者能够精确计算违规行为的经济影响，并评估交通执法部门的罚款回收效率。这不仅为学术研究提供了丰富的数据基础，还为城市管理决策提供了科学依据。

实际应用

在实际应用中，该数据集被用于优化城市停车管理系统的设计与实施。例如，交通管理部门可以通过分析违规热点区域和时间段，调整执法资源的分配策略。此外，该数据集还被用于开发智能停车管理系统，通过预测违规行为的发生概率，提升城市交通管理的智能化水平。

数据集最近研究