five

Arrest Dataset, 311 Service Requests dataset

收藏
github2023-12-16 更新2024-05-31 收录
下载链接:
https://github.com/czeng13/NYC-311-Arrest-Data-ML-Project
下载链接
链接失效反馈
官方服务:
资源简介:
该项目使用来自NYC Open Data的Arrest数据集和311服务请求数据集,分析投诉次数与逮捕次数之间的关系。

This project utilizes the Arrest dataset and the 311 service request dataset from NYC Open Data to analyze the relationship between the number of complaints and the number of arrests.
创建时间:
2023-09-26
原始信息汇总

数据集概述

数据集用途

本项目使用纽约市开放数据中的两个数据集:Arrest Dataset 和 311 Service Requests 数据集,旨在分析投诉数量与逮捕数量之间的关系。项目采用线性回归模型,以投诉数量、星期几、年份、行政区和月份作为预测因子,逮捕数量作为目标变量。

数据集来源

  1. 311 Service Requests 数据集

  2. NYPD Arrests Data (Historic) 数据集

技术栈

  • PySpark
  • AWS S3
  • AWS EC2
  • Databricks

项目主要组成部分

  • 数据获取
  • 探索性数据分析
  • 数据清洗
  • 特征工程
  • 数据可视化
搜集汇总
数据集介绍
main_image_url
构建方式
Arrest Dataset和311 Service Requests数据集均源自纽约市开放数据平台,旨在通过大数据技术分析投诉数量与逮捕数量之间的关系。数据集的构建过程包括数据获取、探索性数据分析、数据清洗、特征工程和数据可视化等步骤。利用AWS EC2、AWS S3和Databricks等云基础设施技术,构建了一个机器学习管道,采用线性回归模型,以投诉数量、星期几、年份、行政区和月份为预测变量,逮捕数量为目标变量。
特点
该数据集的特点在于其丰富的时间维度和地理维度信息,涵盖了从2010年至今的311服务请求和纽约市警察局的逮捕记录。数据集不仅提供了详细的投诉和逮捕数据,还包含了星期几、年份、行政区和月份等多维度特征,为分析城市治安状况和公共服务需求提供了全面的视角。此外,数据集经过严格的清洗和特征工程处理,确保了数据的质量和可用性。
使用方法
使用该数据集时,首先需要通过AWS S3和Databricks等云平台进行数据加载和处理。随后,利用PySpark进行数据探索和清洗,提取关键特征。接着,构建线性回归模型,以投诉数量、星期几、年份、行政区和月份为输入,预测逮捕数量。最后,通过数据可视化技术展示分析结果,帮助决策者理解城市治安状况与公共服务需求之间的关系。
背景与挑战
背景概述
Arrest Dataset与311 Service Requests数据集源自纽约市的开放数据平台,旨在通过大数据技术分析城市服务请求与逮捕事件之间的关系。该数据集由纽约市政府提供,涵盖了自2010年以来的311服务请求记录以及历史逮捕数据。研究团队利用这些数据构建了一个基于线性回归模型的机器学习管道,旨在探索投诉数量、星期几、年份、行政区划和月份等因素对逮捕数量的影响。该研究不仅为城市管理提供了数据支持,也为公共安全领域的决策者提供了新的视角。
当前挑战
该数据集的研究面临多重挑战。首先,数据量庞大且复杂,涉及多个维度的信息整合,如何在保证数据质量的同时进行高效处理是一个关键问题。其次,数据清洗和特征工程过程中,如何处理缺失值、异常值以及如何选择有效的特征变量,直接影响模型的预测精度。此外,数据的时间跨度和空间分布不均,可能导致模型在特定时间段或区域的预测效果不佳。最后,如何在云基础设施上实现大规模数据的并行处理,确保计算资源的合理利用,也是构建过程中需要解决的技术难题。
常用场景
经典使用场景
Arrest Dataset和311 Service Requests数据集在公共安全和社会服务领域的经典使用场景中,主要用于分析城市中的投诉与逮捕事件之间的关系。通过构建机器学习模型,研究人员可以预测特定时间、地点和条件下的逮捕数量,从而为城市管理和公共安全策略提供数据支持。
衍生相关工作
基于Arrest Dataset和311 Service Requests数据集,衍生了许多经典研究工作。例如,研究者开发了基于云计算的机器学习管道,利用AWS和Databricks等技术处理大规模数据。这些工作不仅推动了公共安全领域的数据分析技术发展,还为其他城市提供了可复制的解决方案。
数据集最近研究
最新研究方向
近年来,随着大数据技术的迅猛发展,Arrest Dataset和311 Service Requests dataset在城市公共安全和社会服务领域的研究中展现出重要价值。研究者们通过整合这些数据集,探索了投诉数量与逮捕数量之间的潜在关联,并利用机器学习模型如线性回归进行预测分析。这一研究方向不仅揭示了城市治安管理的动态变化,还为政策制定者提供了数据驱动的决策支持。特别是在纽约市这样的国际化大都市,此类研究有助于优化资源配置,提升公共服务的响应效率。未来,随着云计算和分布式计算技术的进一步应用,这些数据集的分析将更加精细化和实时化,为智慧城市的建设提供强有力的数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作